近期,太阳成集团tyc122cc、人工智能学院刘瑞教授课题组在语音识别、表现力语音合成、语音鉴伪等人机语音共情交互方向取得了重要研究进展,3项研究成果发表在中科院一区Top期刊Information Fusion,122大阳城集团网站为第一单位和通讯单位。
《Information Fusion》是计算机科学、人工智能领域国际权威学术期刊,在中科院分区中为计算机科学大类一区TOP期刊,属于中国人工智能学会推荐A类期刊。该期刊聚焦信息融合的理论、算法及实际应用,涵盖多模态数据融合(如图像、视频、文本、语音)、传感器网络、知识融合、大规模多源数据处理等。以下为3项研究成果简述:
(1)Retrieval-Augmented Dialogue Knowledge Aggregation for Expressive Conversational Speech Synthesis
论文作者:刘瑞,贾真琦(23级硕士研究生),飞龙,李海洲
对话语音合成(Conversational Speech Synthesis,CSS)旨在以当前对话历史为参考,合成符合会话风格的表现力语音。与当前对话不同,存储的对话包含了用户与智能体在早期交互阶段中保留的对话片段,这些片段包含了与当前对话类似场景相关的风格表达知识。需要注意的是,这些知识对于帮助智能体合成能够产生共情反馈的表现力会话语音具有重要意义。然而,现有的研究普遍忽略了这一点。为了解决这一问题,我们提出了一种用于表现力CSS的新型检索增强对话知识聚合方案,称为RADKA-CSS。该方案包括三个主要组件:1)为了从存储对话中有效检索在语义和风格上与当前相似的对话,我们首先构建了一个包含文本和音频样本的存储对话语义-风格数据库(Stored Dialogue Semantic-Style Database,SDSSD)。然后,我们设计了一种多属性检索方案,将当前的对话语义和风格向量与SDSSD中存储的对话语义和风格向量进行匹配,从而检索出最相似的对话。2)为了有效利用当前对话和检索到的对话中的风格知识,我们提出多粒度异构图结构对对话进行编码,并引入多源风格知识聚合机制。3)最后,将聚合后的风格知识输入语音合成器,帮助智能体合成符合会话风格的表现力语音。我们基于CSS任务的基准数据集DailyTalk开展了全面深入的实验。客观评估和主观评估结果均表明,RADKA-CSS在表现力呈现方面优于现有的基线模型。相关代码和音频样本可访问以下链接获取:https://github.com/Coder-jzq/RADKA-CSS。
论文地址:https://www.sciencedirect.com/science/article/abs/pii/S1566253525000211
(2)Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition
论文作者:刘瑞,袁宏宇(23级硕士研究生),高光来,李海洲
与传统的自动语音识别(ASR)不同,视听语音识别(AVSR)同时采用音频和视觉信号来推断转录。最近的研究表明,大语言模型(LLMs)可以从ASR生成的N-Best假设中预测出最佳转录,从而有效地用于ASR的生成性纠错(GER)。然而,这些LLMs缺乏同时理解音频和视频的能力,使得GER方法在AVSR中的应用面临挑战。在这项工作中,我们提出了一种用于AVSR的新型GER范式,称为AVGER,它遵循“Listening and Seeing Again”的概念。具体来说,我们首先利用强大的AVSR系统读取音频和视觉信号,得到N-Best假设,然后利用基于Q-Former的多模态同步编码器再次读取音频和视觉信息,并将其分别转换为LLM可以理解的音频和视频压缩表征。之后,音视频压缩表征和N-Best假设共同构成跨模态提示,引导LLM生成最佳转录。此外,我们还提出了多级一致性约束训练准则,包括对数级、语篇级和表征级,在提高校正精度的同时,增强了音视频压缩表征的可解释性。在LRS3数据集上的实验结果表明,我们的方法能够在较短的时间内对语音进行校正。在LRS3数据集上的实验结果表明,我们的方法优于目前主流的AVSR系统。与它们相比,所提出的AVGER可以将字错误率(WER)降低了27.59%。
论文地址:https://www.sciencedirect.com/science/article/abs/pii/S1566253525001502
(3)Hierarchical multi-source cues fusion for mono-to-binaural based Audio Deepfake Detection
论文作者:刘瑞,张锦华(24级博士研究生),李海洲
音频深度伪造检测(Audio Deepfake Detection, ADD)旨在识别由文本转语音(Text-to-Speech, TTS)、语音转换(Voice Conversion, VC)、语音编辑等技术生成的伪造音频中的伪造特征。随着生成式人工智能(Generative AI)的发展,ADD研究受到越来越多的关注。近年来,单声道到双声道(Mono-to-Binaural, M2B)转换已被应用于ADD领域,以从新的角度揭示伪造特征。然而,基于M2B的方法可能会削弱或忽略单声道音频中独特的伪造特征,从而限制检测性能。为此,本文提出了一种层次化多源特征融合网络(Hierarchical Multi-Source Cues Fusion network, HMSCF-ADD),以提高音频深度伪造检测的准确性。该方法将单声道音频与双声道的左、右通道视为三种独立的信息来源,并通过层次化的信息融合区分共性特征与双声道特有特征,同时去除冗余信息,以实现更有效的检测。具体而言,该方法首先提取并融合双声道的特定特征和共性特征,形成双声道信息;随后,动态融合单声道与双声道信息,以实现层次化特征融合。在ASVspoof2019-LA和ASVspoof2021-PA数据集上的实验结果表明,HMSCF-ADD在所有单声道输入和基于M2B转换的基线方法中均取得了最佳性能。此外,对不同融合策略和M2B转换的详细对比进一步验证了该框架的有效性。代码开源地址为:https://github.com/AI-S2-Lab/HMSCF-ADD。
论文地址:https://www.sciencedirect.com/science/article/abs/pii/S1566253525001708
以上研究受到国家自然科学基金面上项目、青年基金项目、中国科协青年人才托举工程项目、122大阳城集团网站骏马计划项目等项目的支持。