【技术实现步骤摘要】
一种多人说话场景下音视频识别模型训练及识别方法
[0001]本专利技术涉及音视频识别
,具体涉及一种多人说话场景下音视频识别模型训练及识别方法。
技术介绍
[0002]自动语音识别(Automatic Speech Recognition,ASR)技术的目的是让机器能够“听懂”人类的语音,将语音信息转化为文字信息,是实现人机语音交互的关键技术。随着深度学习的逐渐发展,安静环境下的语音识别的准确率高于95%,已经达到可以工业应用的水平。
[0003]但在车载语音领域,复杂的背景噪声还有多说话人的声音会对语音质量和语音清晰度产生较大影响,严重影响语音识别性能。语言感知不仅与听觉相关,还与视觉紧密相关,利用跨模态多特征融合的音视频语音识别方法成为提升复杂背景噪音条件下语音识别精度的重要途径。现有的唇语识别及多模态语音识别多利用人的唇形动作视频,提取出有用的语音内容相关的表征,从而进行语音文本内容的自动识别,但由于唇语视频不受环境噪声的干扰,所以融合视觉信号可以有效提升语音识别系统在噪声环境下的鲁棒性;还有一些方法是通 ...
【技术保护点】
【技术特征摘要】
1.一种多人说话场景下音视频识别模型训练方法,其特征在于,包括:获取多人说话场景下对应的多个视频数据和单个音频数据,对所述多个视频数据和所述单个音频数据进行混合得到训练数据;将所述训练数据输入预设模型中,分别得到多个视频数据对应的预测矩阵和CTC损失函数;使用主成分分析方法提取所述预测矩阵的特征矩阵,根据所述特征矩阵计算得到KL散度损失函数;根据所述CTC损失函数和所述KL散度损失函数计算所述预设模型的损失函数;利用训练数据循环迭代对预设模型进行训练,直至预测模型的损失函数收敛,得到最优的模型,作为多人说话场景下音视频识别模型。2.根据权利要求1所述多人说话场景下音视频识别模型训练方法,其特征在于,所述训练数据包括:多个视频数据、单个音频数据及多个视频数据各自对应的标签,所述标签为多个视频数据识别结果在预设模型的数据库中对应的位置标签。3.根据权利要求1所述多人说话场景下音视频识别模型训练方法,其特征在于,所述预设模型为基于编码器和卷积神经网络建立的模型。4.根据权利要求3所述多人说话场景下音视频识别模型训练方法,其特征在于,根据所述CTC损失函数和所述KL散度损失函数计算所述预设模型的损失函数的过程为:KLLoss=1/KL(V1
’
,V2
’……
Vn
’
)*T,其中,KLLoss表示KL散度损失函数,V1
’
、V2
’……
Vn
’
分别为多个视频数据的模型预测矩阵的特征矩阵,KL表示KL散度,T表示温度系数;利用多个视频数据的模型预测矩阵和其对应的标签分别计算得到各自的CTC损失函数:loss1、loss2
……
lossn;通过公式:loss=a*loss1+b*loss2+
……
+c*lossn+dKLLoss计算所述预测模型的损失函数,其中,loss表示预测模型的损失函数,a、b、
……
、c、d分别为各损失函数对应的权重。5.根据权利要求1所述多人说话场景下音视频识别模型训练方法,其特征在于,对所...
【专利技术属性】
技术研发人员:赵晴,
申请(专利权)人:镁佳北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。