语音内容检测方法、模型训练方法及相关装置制造方法及图纸

技术编号：35020743 阅读：19 留言：0更新日期：2022-09-24 22:49

本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质，该方法包括：将目标语音的音频数据以及所述目标语音对应的视频数据，输入预先训练的多模态音频帧分类网络，得到对所述目标语音的各个音频帧的分类结果；其中，所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像；所述多模态音频帧分类网络，是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络；在所述联合训练过程中，所述辅助训练网络以语音训练样本的文本标签为训练标签，对语音训练样本进行语音内容识别训练。上述方法能够提高语音内容检测的准确度。上述方法能够提高语音内容检测的准确度。上述方法能够提高语音内容检测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音内容检测方法、模型训练方法及相关装置

[0001]本申请涉及人工智能
，尤其涉及一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]语音内容检测是从语音信号中筛选有效语音内容的主要手段，其主要通过检测语音信号中的语音帧和非语音帧，从而确定语音信号中有效语音内容。语音内容检测位于语音信号处理相关任务的前端，语音内容检测准确与否将直接影响语音识别、意图识别等各类下游任务的性能。如果语音内容检测出现漏检和误检等异常情况，将会导致人机交互出现不响应、提前结束或误触发等一系列问题。
[0003]现有的语音内容检测方案针对纯净语音信号的有效语音内容检测准确度较高，但是随着人工智能相关技术和产品的不断推广，语音内容检测的应用场景和客户需求也越来越复杂。例如在汽车座舱内，声学场景较为复杂，当车载系统和主驾驶人互动时，可能在不同座舱区域存在多人说话，由于此时声学环境复杂，无法针对主驾驶人语音实现有效的语音内容检测。
[0004]因此，如何提高语音内容检测的性能，从而适应复杂声学场景的语音内容检测，成为了亟待解决的问题。

技术实现思路

[0005]为了解决上述问题，本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质，能够显著提高语音内容检测的性能，提高检测准确度。
[0006]本申请第一方面提供了一种语音内容检测方法，包括：
[0007]将目标语音的音频数据以及所述目标语音对应的视频数据，输入预先训练的多模态音频帧分类网络，得...

【技术保护点】

【技术特征摘要】
1.一种语音内容检测方法，其特征在于，包括：将目标语音的音频数据以及所述目标语音对应的视频数据，输入预先训练的多模态音频帧分类网络，得到对所述目标语音的各个音频帧的分类结果；其中，所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像；所述多模态音频帧分类网络，是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络；在所述联合训练过程中，所述辅助训练网络以语音训练样本的文本标签为训练标签，对语音训练样本进行语音内容识别训练。2.根据权利要求1所述的方法，其特征在于，所述多模态音频帧分类网络将所述目标语音的音频帧分类为语音帧或非语音帧的处理过程包括：将目标语音的音频数据输入预先训练的音频特征提取网络，得到目标语音的音频特征；以及，将所述目标语音对应的视频数据输入预先训练的唇形特征提取网络，得到所述目标语音对应的说话人的唇形特征；根据所述音频特征以及所述唇形特征，将所述目标语音的音频帧分类为语音帧或非语音帧；其中，所述音频特征提取网络与所述唇形特征提取网络通过特征一致性联合训练得到。3.根据权利要求1或2所述的方法，其特征在于，所述辅助训练网络，包括第一辅助训练网络，所述第一辅助训练网络用于对音频数据的音频帧进行音素分类处理。4.根据权利要求3所述的方法，其特征在于，所述辅助训练网络，还包括第二辅助训练网络，所述第二辅助训练网络用于对音频数据进行语音识别处理。5.根据权利要求3所述的方法，其特征在于，所述辅助训练网络，还包括第三辅助训练网络，所述第三辅助训练网络用于基于音频数据以及视频数据进行多模态语音识别处理。6.根据权利要求2所述的方法，其特征在于，所述音频特征提取网络与所述唇形特征提取网络的特征一致性联合训练过程，包括：利用音频特征提取网络对语音训练样本进行音频特征提取，得到音频特征，以及，利用唇形特征提取网络对所述语音训练样本对应的视频训练样本进行唇形特征提取，得到唇形特征；通过对比所述音频特征和所述唇形特征，确定对比损失函数；根据所述对比损失函数，对所述音频特征提取网络和所述唇形特征提取网络进行参数校正，以使所述音频特征提取网络提取的音频特征和所述唇形特征提取网络提取的唇形特征更匹配。7.根据权利要求2所述的方法，其特征在于，根据所述音频特征以及所述唇形特征，将所述目标语音的音频帧分类为语音帧或非语音帧，包括：对所述音频特征和所述唇形特征进行融合处理，得到音唇融合特征；根据所述音唇融合特征，将所述目标语音的音频帧分类为语音帧或非语音帧。8.根据权利要求7所述的方法，其特征在于，对所述音频特征和所述唇形特征进行融合处理，得到音唇融合特征，包括：对所述音频特征和所述唇形特征进行时间对齐处理，以使每帧音频特征和每帧唇形特征的特征维度相同；
将时间对齐后的所述音频特征和所述唇形特征进行拼接，得到音唇融合特征；或者，将时间对齐后的所述音频特征和所述唇形特征进行拼接，得到音视频拼接特征；利用所述音频特征对所述音视频拼接特征进行特征过滤，得到过滤特征；将所述音频特征与所述过滤特征进行拼接，得到音唇融合特征。9.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据对所述目标语音的各个音频帧的分类结果，确定所述目标语音的有效语...

【专利技术属性】
技术研发人员：陈洁茹，万根顺，高建清，潘嘉，刘聪，王智国，胡国平，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人