语音内容检测方法、模型训练方法及相关装置制造方法及图纸

技术编号:35020743 阅读:19 留言:0更新日期:2022-09-24 22:49
本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质,该方法包括:将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。上述方法能够提高语音内容检测的准确度。上述方法能够提高语音内容检测的准确度。上述方法能够提高语音内容检测的准确度。

【技术实现步骤摘要】
语音内容检测方法、模型训练方法及相关装置


[0001]本申请涉及人工智能
,尤其涉及一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]语音内容检测是从语音信号中筛选有效语音内容的主要手段,其主要通过检测语音信号中的语音帧和非语音帧,从而确定语音信号中有效语音内容。语音内容检测位于语音信号处理相关任务的前端,语音内容检测准确与否将直接影响语音识别、意图识别等各类下游任务的性能。如果语音内容检测出现漏检和误检等异常情况,将会导致人机交互出现不响应、提前结束或误触发等一系列问题。
[0003]现有的语音内容检测方案针对纯净语音信号的有效语音内容检测准确度较高,但是随着人工智能相关技术和产品的不断推广,语音内容检测的应用场景和客户需求也越来越复杂。例如在汽车座舱内,声学场景较为复杂,当车载系统和主驾驶人互动时,可能在不同座舱区域存在多人说话,由于此时声学环境复杂,无法针对主驾驶人语音实现有效的语音内容检测。
[0004]因此,如何提高语音内容检测的性能,从而适应复杂声学场景的语音内容检测,成为了亟待解决的问题。

技术实现思路

[0005]为了解决上述问题,本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质,能够显著提高语音内容检测的性能,提高检测准确度。
[0006]本申请第一方面提供了一种语音内容检测方法,包括:
[0007]将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;
[0008]其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。
[0009]本申请第二方面提供了另一种语音内容检测方法,该方法包括:
[0010]获取目标语音的音频特征,以及所述目标语音对应的说话人的唇形特征;
[0011]将所述音频特征以及所述唇形特征输入多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;
[0012]其中,所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,进行对所述语音训练样本的语音内容识别训练。
[0013]本申请第三方面提供了一种模型训练方法,包括:
[0014]利用语音训练样本以及所述语音训练样本对应的视频训练样本,对多模态音频帧分类网络以及辅助训练网络进行联合训练;
[0015]其中,所述语音训练样本对应的视频训练样本中,包含所述语音训练样本的说话人的面部影像;在所述联合训练过程中,所述多模态音频帧分类网络以语音训练样本的语音端点检测标签为训练标签,进行语音帧或非语音帧的音频帧分类训练,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。
[0016]本申请第四方面提供了一种语音内容检测装置,包括:
[0017]检测处理单元,用于将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;
[0018]其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。
[0019]本申请第五方面提供了另一种语音内容检测装置,包括:
[0020]特征获取单元,用于获取目标语音的音频特征,以及所述目标语音对应的说话人的唇形特征;
[0021]特征处理单元,用于将所述音频特征以及所述唇形特征输入多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;
[0022]其中,所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,进行对所述语音训练样本的语音内容识别训练。
[0023]本申请第六方面提供了一种模型训练装置,包括:
[0024]训练处理单元,用于利用语音训练样本以及所述语音训练样本对应的视频训练样本,对多模态音频帧分类网络以及辅助训练网络进行联合训练;
[0025]其中,所述语音训练样本对应的视频训练样本中,包含所述语音训练样本的说话人的面部影像;在所述联合训练过程中,所述多模态音频帧分类网络以语音训练样本的语音端点检测标签为训练标签,进行语音帧或非语音帧的音频帧分类训练,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。
[0026]本申请第七方面提供了一种电子设备,包括:
[0027]存储器和处理器;
[0028]所述存储器与所述处理器连接,用于存储程序;
[0029]所述处理器,通过运行所述存储器中的程序,实现上述的语音内容检测方法或模型训练方法。
[0030]本申请第八方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现上述的语音内容检测方法或模型训练方法。
[0031]本申请将多模态音频帧分类网络与辅助训练网络一起进行联合训练,在训练过程中,使多模态音频帧分类网络与辅助训练网络分别对语音训练样本进行音频帧分类训练和语音内容识别训练,并将两部分训练的损失函数进行融合后用于对多模态音频帧分类网络进行参数校正。上述的多任务联合训练方式,可以更加充分地、多方面地对多模态音频帧分
类网络进行参数校正,从而使多模态音频帧分类网络的音频帧分类性能更强。同时,上述的多任务联合训练方式,将语音训练样本的文本标签用于辅助模型训练,能够指导模型实现更准确的语音内容检测,取得更准确的语音内容检测结果,提升了语音内容检测性能。
附图说明
[0032]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0033]图1为本申请实施例提供的一种模型训练方法的流程示意图;
[0034]图2为本申请实施例提供的一种多任务联合训练的示意图;
[0035]图3为本申请实施例提供的一种语音内容检测方法的流程示意图;
[0036]图4为本申请实施例提供的一种多模态音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音内容检测方法,其特征在于,包括:将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。2.根据权利要求1所述的方法,其特征在于,所述多模态音频帧分类网络将所述目标语音的音频帧分类为语音帧或非语音帧的处理过程包括:将目标语音的音频数据输入预先训练的音频特征提取网络,得到目标语音的音频特征;以及,将所述目标语音对应的视频数据输入预先训练的唇形特征提取网络,得到所述目标语音对应的说话人的唇形特征;根据所述音频特征以及所述唇形特征,将所述目标语音的音频帧分类为语音帧或非语音帧;其中,所述音频特征提取网络与所述唇形特征提取网络通过特征一致性联合训练得到。3.根据权利要求1或2所述的方法,其特征在于,所述辅助训练网络,包括第一辅助训练网络,所述第一辅助训练网络用于对音频数据的音频帧进行音素分类处理。4.根据权利要求3所述的方法,其特征在于,所述辅助训练网络,还包括第二辅助训练网络,所述第二辅助训练网络用于对音频数据进行语音识别处理。5.根据权利要求3所述的方法,其特征在于,所述辅助训练网络,还包括第三辅助训练网络,所述第三辅助训练网络用于基于音频数据以及视频数据进行多模态语音识别处理。6.根据权利要求2所述的方法,其特征在于,所述音频特征提取网络与所述唇形特征提取网络的特征一致性联合训练过程,包括:利用音频特征提取网络对语音训练样本进行音频特征提取,得到音频特征,以及,利用唇形特征提取网络对所述语音训练样本对应的视频训练样本进行唇形特征提取,得到唇形特征;通过对比所述音频特征和所述唇形特征,确定对比损失函数;根据所述对比损失函数,对所述音频特征提取网络和所述唇形特征提取网络进行参数校正,以使所述音频特征提取网络提取的音频特征和所述唇形特征提取网络提取的唇形特征更匹配。7.根据权利要求2所述的方法,其特征在于,根据所述音频特征以及所述唇形特征,将所述目标语音的音频帧分类为语音帧或非语音帧,包括:对所述音频特征和所述唇形特征进行融合处理,得到音唇融合特征;根据所述音唇融合特征,将所述目标语音的音频帧分类为语音帧或非语音帧。8.根据权利要求7所述的方法,其特征在于,对所述音频特征和所述唇形特征进行融合处理,得到音唇融合特征,包括:对所述音频特征和所述唇形特征进行时间对齐处理,以使每帧音频特征和每帧唇形特征的特征维度相同;
将时间对齐后的所述音频特征和所述唇形特征进行拼接,得到音唇融合特征;或者,将时间对齐后的所述音频特征和所述唇形特征进行拼接,得到音视频拼接特征;利用所述音频特征对所述音视频拼接特征进行特征过滤,得到过滤特征;将所述音频特征与所述过滤特征进行拼接,得到音唇融合特征。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据对所述目标语音的各个音频帧的分类结果,确定所述目标语音的有效语...

【专利技术属性】
技术研发人员:陈洁茹万根顺高建清潘嘉刘聪王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1