基于视觉场景的多模态语音识别方法、电子设备、介质技术

技术编号：41650146 阅读：22 留言：0更新日期：2024-06-13 02:40

本发明专利技术公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质，包括：获取语音音频以及语音音频所处环境对应的场景视频；将其输入至预先训练好的视听特征编码模型进行特征提取，分别得到声学特征、视觉特征，经拼接与融合，得到视听融合特征；其中，视听特征编码模型的训练过程包括：获取初始声学特征、初始视觉特征，经拼接、融合后得到视听融合特征；对每段时间窗口内的视听融合特征进行聚类，得到聚类标签；随机选择部分时间窗口的视听融合特征进行掩蔽；利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测，完成训练过程；将视听融合特征输入至微调后的语音识别解码模型转换为语音文本，得到语音识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别，尤其涉及一种基于视觉场景的多模态语音识别方法、电子设备、介质。

技术介绍

1、语音是人类社会中重要的信息载体，语音识别技术作为一项重要的人机交互手段，在通讯、车载、工业等领域具有广泛的应用价值。近年来，人工智能算法的迅速发展，基于深度神经网络的语音识别方法极大地提升了语音识别的正确率。主流的语音识别技术主要采用单模态信息(即音频)进行语音识别。spille等人的研究(spille c,ewert sd,kollmeier b,meyer b t.predicting speech intelligibility with deep neuralnetworks.computer speech&language,2018,48:51-66)指出，主流的单模态语音识别技术在简单、安静场景下的性能已接近人类，但是在复杂、噪声场景下的性能仍严重不足；相比之下，人类在复杂场景中能够保持稳定、高效的语音识别。因此，借鉴人脑的听觉语音处理机制逐渐成为解决当前语音模型性能不足的重要途径之一。在复杂噪声环境中，人脑常利用视...

【技术保护点】

1.一种基于视觉场景的多模态语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于视觉场景的多模态语音识别方法，其特征在于，得到视听融合特征的过程包括：

3.根据权利要求1所述的基于视觉场景的多模态语音识别方法，其特征在于，随机选择部分时间窗口的初始视听融合特征进行掩蔽包括：

4.根据权利要求3所述的基于视觉场景的多模态语音识别方法，其特征在于，利用未掩蔽时间窗口的视听融合特征向量对掩蔽时间窗口的聚类标签进行预测，从而对视听特征编码模型进行训练包括：

5.根据权利要求4所述的基于视觉场景的多模态语音识别方法，其特征在于，掩蔽...

【技术特征摘要】

1.一种基于视觉场景的多模态语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于视觉场景的多模态语音识别方法，其特征在于，得到视听融合特征的过程包括：

3.根据权利要求1所述的基于视觉场景的多模态语音识别方法，其特征在于，随机选择部分时间窗口的初始视听融合特征进行掩蔽包括：

5.根据权利要求4所述的基于视觉场景的多模态语音识别方法，其特征在于，掩蔽时间窗口的损失函数的表达式如下：

6.根据权利要求1所述的基于视觉场景的多模态语音识别方法，其特征在于，对语音识...

【专利技术属性】
技术研发人员：罗城，孙周健，孙文慧，王瑶瑶，章佳颖，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人