【技术实现步骤摘要】
本专利技术属于语音识别,尤其涉及一种基于视觉场景的多模态语音识别方法、电子设备、介质。
技术介绍
1、语音是人类社会中重要的信息载体,语音识别技术作为一项重要的人机交互手段,在通讯、车载、工业等领域具有广泛的应用价值。近年来,人工智能算法的迅速发展,基于深度神经网络的语音识别方法极大地提升了语音识别的正确率。主流的语音识别技术主要采用单模态信息(即音频)进行语音识别。spille等人的研究(spille c,ewert sd,kollmeier b,meyer b t.predicting speech intelligibility with deep neuralnetworks.computer speech&language,2018,48:51-66)指出,主流的单模态语音识别技术在简单、安静场景下的性能已接近人类,但是在复杂、噪声场景下的性能仍严重不足;相比之下,人类在复杂场景中能够保持稳定、高效的语音识别。因此,借鉴人脑的听觉语音处理机制逐渐成为解决当前语音模型性能不足的重要途径之一。在复杂噪声环境中,人脑常利用视
...【技术保护点】
1.一种基于视觉场景的多模态语音识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于视觉场景的多模态语音识别方法,其特征在于,得到视听融合特征的过程包括:
3.根据权利要求1所述的基于视觉场景的多模态语音识别方法,其特征在于,随机选择部分时间窗口的初始视听融合特征进行掩蔽包括:
4.根据权利要求3所述的基于视觉场景的多模态语音识别方法,其特征在于,利用未掩蔽时间窗口的视听融合特征向量对掩蔽时间窗口的聚类标签进行预测,从而对视听特征编码模型进行训练包括:
5.根据权利要求4所述的基于视觉场景的多模态语音识别方
...【技术特征摘要】
1.一种基于视觉场景的多模态语音识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于视觉场景的多模态语音识别方法,其特征在于,得到视听融合特征的过程包括:
3.根据权利要求1所述的基于视觉场景的多模态语音识别方法,其特征在于,随机选择部分时间窗口的初始视听融合特征进行掩蔽包括:
4.根据权利要求3所述的基于视觉场景的多模态语音识别方法,其特征在于,利用未掩蔽时间窗口的视听融合特征向量对掩蔽时间窗口的聚类标签进行预测,从而对视听特征编码模型进行训练包括:
5.根据权利要求4所述的基于视觉场景的多模态语音识别方法,其特征在于,掩蔽时间窗口的损失函数的表达式如下:
6.根据权利要求1所述的基于视觉场景的多模态语音识别方法,其特征在于,对语音识...
【专利技术属性】
技术研发人员:罗城,孙周健,孙文慧,王瑶瑶,章佳颖,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。