一种多模态同步融合语音识别系统技术方案

技术编号：44048334 阅读：24 留言：0更新日期：2025-01-15 01:28

本发明专利技术公开了一种多模态同步融合语音识别系统，属于多模态信息融合技术领域，包括：数据采集模块；多模态信息处理平台；融合权重调整模块，用于实时监测输入信号的质量和特点，动态调整各模块的融合权重，确保所述融合权重能够适应输入信号的变化；自适应融合算法，所述融合权重调整模块实时反馈给自适应融合算法，所述自适应融合算法能够根据不同模态信息的特点动态调整融合策略，确保最佳融合效果；和环境噪声处理模块，用于识别和分析环境噪声的特点，便于融合过程中进行有效抑制。本发明专利技术通过多模态信息处理平台、融合权重调整模块、自适应融合算法三次融合调整，保证了语音、图像和生理信号最佳的融合，提高信息识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态信息融合，尤其涉及一种多模态同步融合语音识别系统。

技术介绍

1、随着深度学习技术的飞速发展，尤其是注意力机制的引入，为语音识别技术带来了革命性的变革，使得这一领域的研究和应用迈上了新的台阶。然而，尽管取得了显著进展，单一模态的语音识别系统在面对现实世界的复杂环境时，仍显得力不从心。

2、首先，噪音环境是语音识别技术面临的一大难题。无论是室内外的背景噪音，还是多人交谈的嘈杂场景，都会对音频信号的清晰度造成严重影响，进而降低语音识别的准确性。为了克服这一挑战，研究人员开始探索将视频信息作为辅助手段，通过捕捉说话者的唇部运动、面部表情等视觉特征来增强语音识别的鲁棒性。视频信息的加入，不仅能够在音频信号受到干扰时提供额外的信息源，还能在一定程度上缓解同音异议词的问题，因为不同的单词往往伴随着不同的唇形变化，然而，将音视频信息有效融合并非易事。一方面，视觉信息的特征化过程相对复杂且多元。不同于音频信号中相对稳定的声学特征(如mfcc)，视频信号中的视觉特征(如唇部轮廓、纹理、运动轨迹等)更加多样且难以量化。因此，如何提取出对语音识别性能提升最为显著的视觉特征，并将其与音频特征(如mfcc)进行有效匹配，成为了avsr系统研究中的一个重要课题。

3、另一方面，音频和视频信号在速率和信息长度上往往存在不匹配的问题。音频信号是连续且时间敏感的，而视频信号则可能由于帧率、编码方式等因素导致信息呈现的不连续性。这种不匹配不仅增加了信息融合的难度，还可能导致音视频信息处理过程中的混乱和负荷增加。

<p>4、此外，avsr系统还需要考虑实际应用场景中的多样性和复杂性。例如，在会议系统中，除了基本的语音识别功能外，还需要实现多人发言的自动切换、会议纪要的自动生成、会议进度的实时跟踪等功能。这些功能的实现需要avsr系统具备高度的智能化和自动化水平，能够准确理解会议内容、识别参会人员身份、分析会议情绪等。

5、但是现有的avsr系统在使用中音频和视频的速率不匹配、信息长度不同，从而使得信息融合困难，很容易引起音视频信息处理混乱，导致负荷增加，识别匹配度低，准确性不高等问题。

技术实现思路

1、本专利技术的目的在于：为了解决现有的avsr系统在使用中音频和视频的速率不匹配、信息长度不同，从而使得信息融合困难，很容易引起音视频信息处理混乱，导致负荷增加，识别匹配度低，准确性不高等问题而提出的一种多模态同步融合语音识别系统。

2、为了实现上述目的，本专利技术采用了如下技术方案：一种多模态同步融合语音识别系统，包括：

3、数据采集模块，用于采集多模态信息；

4、多模态信息处理平台，用于处理、整合和分析来自不同来源和类型的信息；

5、融合权重调整模块，用于实时监测输入信号的质量和特点，动态调整各模块的融合权重，确保所述融合权重能够适应输入信号的变化；所述融合权重调整模块包括自适应融合单元，所述自适应融合单元用于学习采集信号的特性，并据此自动调整各模态信息的所述融合权重，以提高信息识别的准确性：

6、自适应融合算法，所述融合权重调整模块实时反馈给自适应融合算法，所述自适应融合算法能够根据不同模态信息的特点动态调整融合策略，确保最佳融合效果；

7、和环境噪声处理模块，用于识别和分析环境噪声的特点，便于融合过程中进行有效抑制。

8、作为上述技术方案的进一步描述：

9、所述数据采集模块包括语音模块、环境噪声模块、图像模块和生理信号模块，语音模块、环境噪声模块、图像模块和生理信号模块分别用于采集语音、环境噪声、图像和生理信号。

10、作为上述技术方案的进一步描述：

11、所述多模态信息处理平台包括预处理模块、特征提取模块、融合处理模块和决策输出模块，其中所述预处理模块，为各模块对原始数据进行去噪、滤波、校准和增强的初步处理；所述特征提取模块，用于提取各模态数据的特征信息；所述融合处理模块，采用多模态特征融合算法整合特征信息；所述决策输出模块，根据融合结果输出相应的决策或推断。

12、作为上述技术方案的进一步描述：

13、所述语音模块、所述环境噪声模块、所述图像模块和所述生理信号模块分别配置有相应的传感器和采集设备。

14、作为上述技术方案的进一步描述：

15、所述自适应融合单元包括训练单元，所述训练单元用于对大量语音、图像，生物信号以及环境噪声样本进行训练，学习不同条件下输入信号的特征。

16、作为上述技术方案的进一步描述：

17、所述融合权重采用最小二乘法、信息熵或模糊逻辑进行计算。

18、作为上述技术方案的进一步描述：

19、所述融合权重调整模块采用实时反馈机制，实时响应输入信号的变化，并据此调整融合策略。

20、作为上述技术方案的进一步描述：

21、所述语音模块至少包括一个麦克风，所述图像模块至少包括一个摄像头，所述生理信号模块至少包括一个生理信号传感器。

22、综上所述，由于采用了上述技术方案，本专利技术的有益效果是：

23、1、本专利技术中，通过数据采集模块采集语音、环境噪声、图像和生理信号等多模态信息，通过多模态信息处理平台对采集的多模态信息进行去噪、滤波、校准和增强的初步处理，再对其进行各模态数据的特征信息的提取，对提取的多模态信息进行融合，并对融合结果进行决策传输到融合权重调整模块中，融合权重调整模块中通过在自适应融合单元中设置训练单元和存储大量的样本，使用训练单元用于对大量语音、图像，生物信号以及环境噪声样本进行训练，学习不同条件下输入信号的特征，使得自适应融合单元根据学习采集信号的特性，动态调整各模态信息的融合权重，同时实时监测输入信号和质量的特点，并实时反馈给自适应融合算法，自适应融合算法能够根据不同模态信息的特点动态调整融合策略，确保最佳融合效果，且多模态信息融合过程中，环境噪声处理模块对多模态信息中的噪声进行有效的抑制，保证多模态信息能够以最清晰的，最完整的形式呈现，此系统，在相同的时间框架内采集、处理、融合语音、环境噪声、图像、生理信号等多种信息，并产生最终的识别或决策结果，这种同步性确保了系统能够实时地整合来自不同来源的信息，提高信息处理的准确性和鲁棒性。

24、2、本专利技术中，通过多模态信息处理平台、融合权重调整模块、自适应融合算法三次融合调整，首次根据融合结果输出决策或推断；二次融合是利用深度学习训练融合网络，优化其自动学习和融合权重分配能力，三次融合为在融合过程中实时监测信号质量，使用自适应融合算法动态调整融合权重，保证了语音、图像和生理信号最佳的融合，提高信息识别的匹配度和准确性，解决现有的音视频信息处理混乱，导致负荷增加，识别匹配度低，准确性不高等问题。

本文档来自技高网...

【技术保护点】

1.一种多模态同步融合语音识别系统，其特征在于，包括：

2.根据权利要求1所述的一种多模态同步融合语音识别系统，其特征在于，所述数据采集模块包括语音模块、环境噪声模块、图像模块和生理信号模块，语音模块、环境噪声模块、图像模块和生理信号模块分别用于采集语音、环境噪声、图像和生理信号。

3.根据权利要求2所述的一种多模态同步融合语音识别系统，其特征在于，所述多模态信息处理平台包括预处理模块、特征提取模块、融合处理模块和决策输出模块，其中所述预处理模块，为各模块对原始数据进行去噪、滤波、校准和增强的初步处理；所述特征提取模块，用于提取各模态数据的特征信息；所述融合处理模块，采用多模态特征融合算法整合特征信息；所述决策输出模块，根据融合结果输出相应的决策或推断。

4.根据权利要求3所述的一种多模态同步融合语音识别系统，其特征在于，所述语音模块、所述环境噪声模块、所述图像模块和所述生理信号模块分别配置有相应的传感器和采集设备。

5.根据权利要求1所述的一种多模态同步融合语音识别系统，其特征在于，所述自适应融合单元包括训练单元，所述训练单元用于

6.根据权利要求1所述的一种多模态同步融合语音识别系统，其特征在于，所述融合权重采用最小二乘法、信息熵或模糊逻辑进行计算。

7.根据权利要求1所述的一种多模态同步融合语音识别系统，其特征在于，所述融合权重调整模块采用实时反馈机制，实时响应输入信号的变化，并据此调整融合策略。

8.根据权利要求2所述的一种多模态同步融合语音识别系统，其特征在于，所述语音模块至少包括一个麦克风，所述图像模块至少包括一个摄像头，所述生理信号模块至少包括一个生理信号传感器。

...

【技术特征摘要】

1.一种多模态同步融合语音识别系统，其特征在于，包括：

4.根据权利要求3所述的一种多模态同步融合语音识别系统，其特征在于，所述语音模块、所...

【专利技术属性】
技术研发人员：翁志勇，姜锡陵，李连江，陈金龙，侯富旺，
申请(专利权)人：苏州朗捷通智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人