当前位置: 首页 > 专利查询>济南大学专利>正文

一种多模态意图逆向主动融合的人机交互方法技术

技术编号:26761393 阅读:20 留言:0更新日期:2020-12-18 22:58
本发明专利技术公开一种多模态意图逆向主动融合的人机交互方法,包括:获取环境数据、用户的手势数据以及用户的语音数据;对所述环境数据进行场景感知获取环境信息,对所述手势数据进行手势信息提取获取手势意图,对所述语音数据进行语音信息提取获取语音意图;进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图;对所述融合意图进行信任度评价获取目标融合意图;按所述目标融合意图进行交互反馈。本发明专利技术融合意图结合环境时刻、手势数据、语音数据多模态提取而获得,使得意图识别更加准确;能够避免老年人因健忘而重复某一意图;通过主动问询的方式确认发生概率较低的融合意图是否用户本意,获取反映用户本意的目标融合意图。

【技术实现步骤摘要】
一种多模态意图逆向主动融合的人机交互方法
本专利技术涉及人机交互
,尤其涉及一种多模态意图逆向主动融合的人机交互方法。
技术介绍
据调查,我国有27.1%的老年人是过独居生活或是与老伴一起生活的,这个数字还在随着时间而不断增长,老年陪护工作者在未来社会中会出现供不应求的现象。因此,让机器人代替年轻人照顾老人,让机器人成为新时代的“保姆”,成了社会的迫切需求。现在的很少有机器人系统是针对老年人的特点设计的,对于老年人的表达模糊、健忘等特性往往使得机器人陪护无法很好的理解老年人的意图。由于老一辈人的人文化水平有限或随着年龄增长表达能力下降等原因,老年人无论是语言、手势还是体式姿态的表达可能不清晰或存在歧义,通过单模态数据去理解老年人意图不能准确的获知老年人意图。在与老人得社交过程中,不难发现,只要我们反复提问老人表达的不清楚的数据,或是对于老人表达的意图进行反复确认,他们大概率是可以并且能意识到自己表达的错误之处,并进一步解释清楚自己想表达的内容。而且,老年人往往在特定环境特定时间中会有特定的行为动作,因此识别环境数据对于老年人的陪护工作是十分重要的。在现阶段的研究中,鲜有机器人综合考虑时间和地点数据来作为意图可行性评价的参数,导致意图识别准确率低。
技术实现思路
本专利技术提供的多模态意图逆向主动融合的人机交互方法,旨在解决现有技术中在与老年人进行人机交互过程中,由于老年人的歧义表达导致对老年人的真实意图的识别的准确率低的问题。为实现上述目的,本专利技术提供一种多模态意图逆向主动融合的人机交互方法,包括:获取环境数据、用户的手势数据以及用户的语音数据;对所述环境数据进行场景感知获取环境信息,对所述手势数据进行手势信息提取获取手势意图,对所述语音数据进行语音信息提取获取语音意图;进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图;对所述融合意图进行信任度评价获取目标融合意图;按所述目标融合意图进行交互反馈。优选地,对所述环境数据进行场景感知获取环境信息包括:构建环境信息库,所述环境信息库包括地点以及各个地点中存放的物品;通过深度摄像设备获取视频形式的所述环境数据;对所述环境数据进行关键帧提取;通过YOLOv3目标检测对关键帧进行物品检测分析;根据所述物品匹配所述环境信息库,获取所述环境信息。优选地,通过YOLOv3目标检测对所述关键帧图像中的物品进行识别并进行语义提取,选取语义信息正确率为50%以上的语义组成每帧的语义集合,根据所述语义集合和所述环境信息库计算匹配度,将所述环境信息库匹中配度最高的元素提取出来作为所述环境信息。优选地,多模态意图提取包括:构建意图库,所述意图库包括所有的意图;统计学习所述意图库中的任一意图在不同的所述地点发生的概率,构建意图地点概率集;统计学习所述意图中的任一意图在不同时刻发生的概率,构建意图时刻概率集。优选地,多模态意图提取融合意图包括:对所述语音数据进行语音信息提取获取语音意图,构建包含提取的所述语音意图的语音意图集,对所述语音意图集中的所述语音意图按意图地点概率和意图时刻概率的乘积顺序排序,按概率值提取最可能发生语音意图构建的第一意图集;对所述手势数据进行手势信息提取获取手势意图,构建包含任一所述手势意图的手势意图集,对所述手势意图集中的所述手势意图按意图地点概率和意图时刻概率的乘积顺序排序,按概率值提取最可能发生手势意图构建的第二意图集;对第一意图集和第二意图集取交集获取第三意图集;分析第三意图集中的意图获取所述融合意图。优选地,分析第三意图集中的意图获取所述融合意图包括:获取所述第三意图集中的任一意图上次发生时刻,并计算上次发生时刻与当前时刻的时间差,根据意图可能发生的时间间隔分析所述时间差来获取所述融合意图。优选地,对所述融合意图进行信任度评价获取目标融合意图包括:获取融合意图的融合信任度,将所述融合信任度与融合信任度阈值比较,将融合信任度大于等于所述融合信任度阈值的融合意图作为目标融合意图;如果融合意图融合信任度低于所述融合信任度阈值,且融合意图的地点概率小于等于设定的第一概率阈值,则融合意图不是目标融合意图,提示用户无法执行意图;如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率小于等于第二概率阈值,则提示用户是否执行当前融合意图,如果用户确认执行,则将该融合意图当做目标融合意图,如果用户未确认认执行则提示重新输入语音数据和手势数据;如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率大于第二概率阈值,计算获取单模态信任度并与单模态信任度阈值对比,如果单模态信任度小于单模态信任度阈值则融合意图不是目标融合意图,主动从用户获取增强数据;如果单模态信任度大于等于单模态信任度阈值,则将融合意图作为目标融合意图。优选地,对所述融合意图进行评价获取融合意图的融合信任度包括:对语音意图集和手势意图集进行概率归一化,根据归一化的概率求信息熵,公式如下:根据信息熵计算所述融合信任度,公式如下:pe=[(2-HA1)×α1+(2-HA2)×α2]×p(yn);其中,HA1表示语音意图集的信息熵,HA2表示手势意图集的信息熵,α1表示语音意图集的识别率,α2表示手势意图集的识别率,p(yn)表示意图yn的意图地点概率与意图时刻概率集的乘积,p′(yn)是p(yn)对应的归一化值。优选地,所述语音信任度计算公式为:(2-HA1)×α1,所述语音信任度计算公式为:(2-HA2)×α2。本申请提出的一种多模态意图逆向主动融合的人机交互方法具体有以下有益效果:(1)本专利技术提供的一种多模态意图逆向主动融合的人机交互方法能够通过场景识别获取当前所处的环境信息,统计在不同环境中意图发生的概率,统计不同时刻意图发生的概率,通过不同环境中意图发生的概率与不同时刻意图发生的概率结合,确定某环境某时刻意图发生的综合概率;根据所述手势数据确定的手势意图和语音数据确定的语音意图中综合概率大的取交集取得融合意图;融合意图结合环境时刻、手势数据、语音数据多模态提取而获得,避免单模态识别时表达歧义导致识别错误的情况,从而意图识别更加准确;(2)且对融合意图上一次发生的时间进行分析,能够避免老年人因健忘而重复某一意图,如:很多老年人都患有疾病,需要每天吃药,而大多数老年人都有记忆力衰退现象,比如吃药事件在一小时之前做过了,但由于健忘而在一小时后重复做同样的事,导致吃药重复引发危险;而避免重复吃药的意图能避免吃多药对老年人造成的危害。(3)融合意图进行信任度评价而获得目标融合意图,通过问询的方式确认发生概率较低的融合意图是否用户本意,通过问询的方式获取概率极低的融合意图的增强数据,重新确定融合意图本文档来自技高网...

【技术保护点】
1.一种多模态意图逆向主动融合的人机交互方法,其特征在于,包括:/n获取环境数据、用户的手势数据以及用户的语音数据;/n对所述环境数据进行场景感知获取环境信息,对所述手势数据进行手势信息提取获取手势意图,对所述语音数据进行语音信息提取获取语音意图;进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图;/n对所述融合意图进行信任度评价获取目标融合意图;/n按所述目标融合意图进行交互反馈。/n

【技术特征摘要】
1.一种多模态意图逆向主动融合的人机交互方法,其特征在于,包括:
获取环境数据、用户的手势数据以及用户的语音数据;
对所述环境数据进行场景感知获取环境信息,对所述手势数据进行手势信息提取获取手势意图,对所述语音数据进行语音信息提取获取语音意图;进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图;
对所述融合意图进行信任度评价获取目标融合意图;
按所述目标融合意图进行交互反馈。


2.根据权利要求1所述的多模态意图逆向主动融合的人机交互方法,其特征在于,对所述环境数据进行场景感知获取环境信息包括:
构建环境信息库,所述环境信息库包括地点以及各个地点中存放的物品;
通过深度摄像设备获取视频形式的所述环境数据;
对所述环境数据进行关键帧提取;
通过YOLOv3目标检测对关键帧进行物品检测分析;
根据所述物品匹配所述环境信息库,获取所述环境信息。


3.根据权利要求2所述的多模态意图逆向主动融合的人机交互方法,其特征在于,通过YOLOv3目标检测对所述关键帧图像中的物品进行识别并进行语义提取,选取语义信息正确率为50%以上的语义组成每帧的语义集合,根据所述语义集合和所述环境信息库计算匹配度,将所述环境信息库匹中配度最高的元素提取出来作为所述环境信息。


4.根据权利要求2所述的多模态意图逆向主动融合的人机交互方法,其特征在于,多模态意图提取包括:构建意图库,所述意图库包括所有的意图;统计学习所述意图库中的任一意图在不同的所述地点发生的概率,构建意图地点概率集;统计学习所述意图中的任一意图在不同时刻发生的概率,构建意图时刻概率集。


5.根据权利要求4所述的多模态意图逆向主动融合的人机交互方法,其特征在于,多模态意图提取融合意图包括:
对所述语音数据进行语音信息提取获取语音意图,构建包含提取的所述语音意图的语音意图集,对所述语音意图集中的所述语音意图按意图地点概率和意图时刻概率的乘积顺序排序,按概率值提取最可能发生语音意图构建的第一意图集;
对所述手势数据进行手势信息提取获取手势意图,构建包含任一所述手势意图的手势意图集,对所述手势意图集中的所述手势意图按意图地点概率和意图时刻概率的乘积顺序排序,按概率值提取最可能发生手势意图构建的第二意图集;
对第一意图集和第二意图集取交集获取第三意图集;
分析第三意图集中的意图获取所述融合意图。


6.根据权利要求5所述的多模态意图逆向主动融合的人机交互方法,其特征在于,分析第三意图集中的意图获取所述融合意图包括:
获取所述第三意图集中的任一意图上次发生时刻,并计算上次发生时刻与当前时刻的时...

【专利技术属性】
技术研发人员:冯志全郎需婕郭庆北徐涛杨晓晖范雪田京兰
申请(专利权)人:济南大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1