一种多模态意图识别方法及系统技术方案

技术编号：46582647 阅读：0 留言：0更新日期：2025-10-10 21:21

本发明专利技术提供一种多模态意图识别方法及系统，方法包括以下步骤：获取若干个初始文本向量、初始视频向量的视频特征集及初始音频向量；获取与初始文本向量对应的第一融合向量及第二融合向量；判断第一融合向量是否为第一待用向量，并判断第二融合向量是否为第二待用向量；通过第一待用向量获取初始视频待融向量，通过第二待用向量获取初始音频待融向量，对两者进行交互增强，以获取最终视频待融向量及最终音频待融向量；将两者与初始文本向量融合为多模态特征集。通过将初始文本向量分别与不同的初始视频向量及不同的初始音频向量进行关联，一重抑制无关噪声的影响；通过提取高相似度的第一融合向量及第二融合向量，二重抑制无关噪声的影响。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别涉及一种多模态意图识别方法及系统。

技术介绍

1、随着人机交互技术的发展，仅依靠文本模态进行意图识别（如传统的基于文本的意图分类）已难以满足对用户复杂、隐含意图理解的需求。

2、多模态意图识别（mir）通过融合文本（text）、音频（audio）、视频（video）等信息，旨在更全面地理解用户意图。但音频和视频模态中通常包含大量与当前意图无关甚至冲突的冗余信息或噪声，如音频中的语音语调、背景噪音等，又如视频中的面部表情、肢体动作、环境背景等。

3、现有代表性技术（如mag-bert）通过门控机制直接融合多模态特征，并注入到文本主干网络（如bert），虽简单高效，但缺乏对辅助模态（audio/video）中关键信息的有效筛选机制，无法主动过滤噪声，而无关信息的注入反而会对文本主导的意图表征造成干扰，降低识别精度。

技术实现思路

1、针对现有技术的不足，本专利技术的目的在于提供一种多模态意图识别方法及系统，旨在解决现有技术中直接融合多模态特征...

【技术保护点】

1.一种多模态意图识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态意图识别方法，其特征在于，所述基于所述初始文本向量与若干个所述初始视频向量获取与所述初始文本向量对应的第一融合向量的步骤包括：

3.根据权利要求2所述的多模态意图识别方法，其特征在于，所述权重向量的计算公式为：

4.根据权利要求1所述的多模态意图识别方法，其特征在于，所述通过所述初始文本向量判断所述第一融合向量是否为第一待用向量的步骤包括：

5.根据权利要求4所述的多模态意图识别方法，其特征在于，所述第一相似度的获取公式为：