多模态融合人机交互方法、装置、存储介质、终端及系统制造方法及图纸

技术编号:22588603 阅读:42 留言:0更新日期:2019-11-20 08:07
本发明专利技术实施例公开了多模态融合人机交互方法、装置、存储介质、终端及系统。该方法包括:获取机器人采集的目标交互对象对应的交互数据,其中,交互数据包括音频数据、微表情数据、距离数据以及姿势数据;根据交互数据基于预设规则确定所述机器人的交互反馈数据,其中,交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;利用交互反馈数据控制机器人执行相应的交互反馈操作。本发明专利技术实施例通过采用上述技术方案,可以使机器人的反馈更加合理和人性化,丰富反馈形式,有助于提升人机交互的体验。

Multimodal fusion human-computer interaction method, device, storage medium, terminal and system

The embodiment of the invention discloses a multimodal fusion human-computer interaction method, device, storage medium, terminal and system. The method includes: acquiring the interaction data corresponding to the target interaction object collected by the robot, wherein, the interaction data includes audio data, micro expression data, distance data and posture data; determining the interaction feedback data of the robot based on preset rules according to the interaction data, wherein, the interaction feedback data includes voice feedback data and micro expression feedback data including mood information Data and action feedback data are used to control the robot to perform the corresponding interactive feedback operation. The embodiment of the invention can make the feedback of the robot more reasonable and humanized by adopting the above technical scheme, enrich the feedback form, and help to improve the experience of human-computer interaction.

【技术实现步骤摘要】
多模态融合人机交互方法、装置、存储介质、终端及系统
本专利技术实施例涉及计算机
,尤其涉及多模态融合人机交互方法、装置、存储介质、终端及系统。
技术介绍
机器人是自动执行工作的机器装置,它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动,它的任务是协助或取代人类的工作,可应用于如生产业、建筑业或其他危险行业。目前,服务机器人等需要进行人机交互的交互机器人作为一个崭新的产业正在崛起,与此同时,服务机器人市场与需求也在快速增长,根据国际机器人联合会的最新市场预测,到2020年,全球服务机器人的市场总的规模将达到约600亿美元。在个人服务、公共服务、康复辅助以及助老助残等领域,各种不同种类的机器人也在飞速应用发展,成为方便大众生活、缓解劳动力成本上涨以及提升服务质量的有力助手。然而,目前的交互机器人在与人类进行交互时,反馈形式单调,交互生硬,需要改进。
技术实现思路
本专利技术实施例提供了多模态融合人机交互方法、装置、存储介质、终端及系统,可以优化现有的基于交互机器人的人机交互方案。第一方面,本专利技术实施例提供了一种多模态融合人机交互方法,包括:获取机器人采集的目标交互对象对应的交互数据,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。第二方面,本专利技术实施例提供了一种多模态融合人机交互装置,包括:交互数据获取模块,用于获取机器人采集的目标交互对象对应的交互数据,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;交互反馈数据确定模块,用于根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;反馈控制模块,用于利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。第三方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例提供的多模态融合人机交互方法。第四方面,本专利技术实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术实施例提供的多模态融合人机交互方法。第五方面,本专利技术实施例提供了一种多模态融合人机交互系统,包括机器人和后台终端;所述机器人,用于采集目标交互对象对应的交互数据,并将所述交互数据发送至所述后台终端,在所述后台终端的控制下执行交互反馈操作,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;所述后台终端,用于根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。本专利技术实施例中提供的多模态融合人机交互方案,获取机器人采集的目标交互对象对应的交互数据,其中,交互数据包括音频数据、微表情数据、距离数据以及姿势数据,根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据,利用交互反馈数据控制机器人执行相应的交互反馈操作。通过采用上述技术方案,通过采集多个维度的交互数据,并采用基于预设规则来输出多模态的反馈数据,使得机器人的反馈更加合理和人性化,丰富反馈形式,有助于提升人机交互的体验。附图说明图1为本专利技术实施例一提供的一种多模态融合人机交互方法的流程示意图;图2为本专利技术实施例二提供的一种多模态融合人机交互方法的流程示意图;图3为本专利技术实施例三提供的一种多模态融合人机交互方法的流程示意图;图4为本专利技术实施例三提供的一种预设多模态融合模型示意图;图5为本专利技术实施例三提供的另一种预设多模态融合模型示意图;图6为本专利技术实施例三提供的一种多模态融合人机交互方案的框架示意图;图7为本专利技术实施例四提供的一种多模态融合人机交互装置的结构框图;图8为本专利技术实施例六提供的一种终端的结构框图;图9为本专利技术实施例七提供的一种多模态融合人机交互系统的结构框图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。图1为本专利技术实施例一提供的一种多模态融合人机交互方法的流程示意图,该方法可以由多模态融合人机交互装置执行,其中该装置可由软件和/或硬件实现,一般可集成在终端中。如图1所示,该方法包括:步骤101、获取机器人采集的目标交互对象对应的交互数据,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据。本专利技术实施例中,所述终端可以是机器人终端,也可以是与机器人相配合的后台终端,后台终端可以通过内部局域网或者无线网络等于机器人建立通信连接。所述机器人具体可以是交互机器人,对机器人的具体类型不做限定,例如可以是服务机器人、教学机器人以及表演机器人等等。示例性的,目标交互对象具体可以是当前与机器人进行交互的用户。人类在进行交互的过程中,会采用丰富的表现方式来表达自己的想法,当人类在与机器人进行交互时,目前的机器人通常反馈形式单调,交互生硬,严重影响交互体验。而本专利技术实施例中,可以通过机器人采集目标交互对象的多种维度的交互数据,这样在确定机器人的反馈时,就可以考虑多重因素,使得机器人的反馈更加接近人类,进而提升交互体验。示例性的,音频数据可以通过机器人中的麦克风等声音采集部件来采集,该音频数据中可包括目标交互对象的语音信息以及语气信息等,还可包括周围环境的声音信息。微表情数据和姿势数据可以根据通过机器人中的摄像头等图像采集部件所采集的图像进行分析而得到。距离数据可以通过机器人中的超声波传感器等距离传感器采集得到。上述数据的具体采集方式本专利技术实施例不做限定。步骤102、根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种多模态融合人机交互方法,其特征在于,包括:/n获取机器人采集的目标交互对象对应的交互数据,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;/n根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;/n利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。/n

【技术特征摘要】
1.一种多模态融合人机交互方法,其特征在于,包括:
获取机器人采集的目标交互对象对应的交互数据,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;
根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;
利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。


2.根据权利要求1所述的方法,其特征在于,所述根据所述交互数据基于预设规则确定所述机器人的交互反馈数据,包括:
根据所述交互数据基于通过预设专家系统设定的预设映射规则确定所述机器人的交互反馈数据;或者,
将所述交互数据输入至基于深度学习的预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据。


3.根据权利要求2所述的方法,其特征在于,所述预设多模态融合模型包括多个子模型;
所述将所述交互数据输入至预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据,包括:
从所述交互数据中提取多个子模型分别对应的子样本数据;
将各子样本数据输入至对应的子模型中,得到多个子输出结果;
综合所述多个子输出结果确定所述机器人的交互反馈数据。


4.根据权利要求3所述的方法,其特征在于,所述预设多模态融合模型包括三个子模型,所述三个子模型分别为语音子模型、表情子模型和动作子模型,所述语音子模型对应第一子样本数据、所述表情子模型对应第二子样本数据,所述动作子模型对应第三子样本数据,所述第一子样本数据中包括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据,所述第二子样本数据中包括所述自然语言文本数据和所述微表情数据,所述第三子样本数据中包括所述自然语言文本数据、所述距离数据和所述姿势数据。


5.根据权利要求2所述的方法,其特征在于,在所述获取机器人采集的目标交互对象对应的交互数据之前,还包括:
获取机器人采集的训练样本交互数据,并基于预设专家系统确定所述训练样本交互数据对应的样...

【专利技术属性】
技术研发人员:孙骋苏衍宇孙斌张俊杰莫明兴
申请(专利权)人:苏州博众机器人有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1