一种基于语音与视线多模态融合的意图识别方法及系统技术方案

技术编号:43844515 阅读:37 留言:0更新日期:2024-12-31 18:39
本发明专利技术涉及一种基于语音与视线多模态融合的意图识别方法及系统,属于意图识别技术领域。包括:特征提取:从语音和脸部提取文本、语音和视线特征;多模态表示:包括:1)模态共享表示;2)模态特异表示;多模态融合:包括:3)模态内融合;4)跨模态融合;意图识别:将最终的融合特征输入多层感知机,并连接softmax层输出分类结果,进行意图识别。本发明专利技术在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型,缓解过拟合问题,使模型能够优化新的参数。本发明专利技术通过应用基于全脸外观和随机身份对抗网络的视线特征提取方法,实现与外观无关的视线估计以及脸部重点特征的提取。

【技术实现步骤摘要】

本专利技术涉及一种基于语音与视线多模态融合的意图识别方法及系统,属于意图识别。


技术介绍

1、在数字营销元宇宙交互环境中,意图识别有助于提高客户交互的效率和质量,可帮助企业深入了解客户需求,提供个性化服务,实现精准营销,增强客户满意度。

2、当前,为准确理解客户意图,多模态融合技术通过综合利用不同模态的信息,可以更加全面、准确地理解用户意图。在数字营销元宇宙环境中,人机交互中的语音可提取客户的文本表达信息和语调情绪信息,而脸部视线信息可以反映用户的注意力和兴趣点。将语音和视线信息融合,能提供更为丰富的意图信息,提升意图识别算法的准确性和鲁棒性。

3、人脸视线包含了丰富的人类意图信息,基于深度学习的视线估计技术受到了极大的关注。该技术可以从高维视频图像中学习高级视线特征,从而显著提高人脸视线估计的准确性。但由于人脸图像中由于灯光、遮挡以及人脸外貌差别等原因,使用有限特定人的数据集进行模型训练时,往往会造成模型的过拟合。因此,将人脸视线估计应用于实际意图识别应用仍然具有挑战。

4、另外,多模态融合技术虽然在一定程度上解决了这本文档来自技高网...

【技术保护点】

1.一种基于语音与视线多模态融合的意图识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,基于预训练的FGEN模型提取视线特征;包括:

3.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,采用元学习策略训练FGEN模型,FGEN模型训练利用对抗策略实现视线特征与外观主体的无关性;包括:

4.根据权利要求3所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型;包括:<...

【技术特征摘要】

1.一种基于语音与视线多模态融合的意图识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,基于预训练的fgen模型提取视线特征;包括:

3.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,采用元学习策略训练fgen模型,fgen模型训练利用对抗策略实现视线特征与外观主体的无关性;包括:

4.根据权利要求3所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型;包括:

5.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,模态共享表示:包括:

6.根据权利要求1所述的一种基于语音与视线多模...

【专利技术属性】
技术研发人员:孟巍吴雪霞宗振国郭腾炫孔鹏朱伟义
申请(专利权)人:国网山东省电力公司营销服务中心计量中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1