【技术实现步骤摘要】
本专利技术涉及数据处理,特别涉及一种多模态意图识别方法及系统。
技术介绍
1、随着人机交互技术的发展,仅依靠文本模态进行意图识别(如传统的基于文本的意图分类)已难以满足对用户复杂、隐含意图理解的需求。
2、多模态意图识别(mir)通过融合文本(text)、音频(audio)、视频(video)等信息,旨在更全面地理解用户意图。但音频和视频模态中通常包含大量与当前意图无关甚至冲突的冗余信息或噪声,如音频中的语音语调、背景噪音等,又如视频中的面部表情、肢体动作、环境背景等。
3、现有代表性技术(如mag-bert)通过门控机制直接融合多模态特征,并注入到文本主干网络(如bert),虽简单高效,但缺乏对辅助模态(audio/video)中关键信息的有效筛选机制,无法主动过滤噪声,而无关信息的注入反而会对文本主导的意图表征造成干扰,降低识别精度。
技术实现思路
1、针对现有技术的不足,本专利技术的目的在于提供一种多模态意图识别方法及系统,旨在解决现有技术中直接融合多模态特征
...【技术保护点】
1.一种多模态意图识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多模态意图识别方法,其特征在于,所述基于所述初始文本向量与若干个所述初始视频向量获取与所述初始文本向量对应的第一融合向量的步骤包括:
3.根据权利要求2所述的多模态意图识别方法,其特征在于,所述权重向量的计算公式为:
4.根据权利要求1所述的多模态意图识别方法,其特征在于,所述通过所述初始文本向量判断所述第一融合向量是否为第一待用向量的步骤包括:
5.根据权利要求4所述的多模态意图识别方法,其特征在于,所述第一相似度的获取公式为:
【技术特征摘要】
1.一种多模态意图识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多模态意图识别方法,其特征在于,所述基于所述初始文本向量与若干个所述初始视频向量获取与所述初始文本向量对应的第一融合向量的步骤包括:
3.根据权利要求2所述的多模态意图识别方法,其特征在于,所述权重向量的计算公式为:
4.根据权利要求1所述的多模态意图识别方法,其特征在于,所述通过所述初始文本向量判断所述第一融合向量是否为第一待用向量的步骤包括:
5.根据权利要求4所述的多模态意图识别方法,其特征在于,所述第一相似度的获取公式为:
6.根据权利要求2所述的多模态意图识别方法,...
【专利技术属性】
技术研发人员:游文淮,杨敏,沈曜民,吴延,刘子昊,
申请(专利权)人:江西求是高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。