多模态交互方法、装置、机器人及存储介质制造方法及图纸

技术编号:37638579 阅读:10 留言:0更新日期:2023-05-25 10:05
本申请实施例提供一种多模态交互方法、装置、机器人及存储介质。在该方法中,可对获取的多模态信息进行特征提取,得到多个特征标签。根据多个特征标签进行场景化段落编排,得到与场景匹配的特征段落,利用预设的指令推理模型对特征段落进行推理,并利用得到的控制指令集,通过多模态交互组件与场景中的用户进行交互。通过这种方式,基于从多模态信息中提取出的特征标签进行控制指令的推理操作,可对多模态的输入信息进行融合处理,增强了对多模态的输入信息的理解能力;通过对特征标签进行场景化段落编排以生成特征段落,可使得推理出的控制指令能够动态、灵活地适配交互场景,降低了多模态表达的场景限制,提升了交互方法的泛化性能。性能。性能。

【技术实现步骤摘要】
多模态交互方法、装置、机器人及存储介质


[0001]本申请涉及计算机
,尤其涉及一种多模态交互方法、装置、机器人及存储介质。

技术介绍

[0002]随着智能机器人的相关技术的发展,各种新型的机器人不断推陈出新,比如,家庭保姆机器人和作业机器人等等。
[0003]现有技术中,机器人通常可对单模态信息进行识别,并与用户进行相应地交互。其中,单模态信息即单一形式的信息,可为文本、语音或者视频等等。目前,存在基于规则匹配的方法进行多模态表达的方法,但是这种方法灵活适配不同交互场景,泛化性能较差。因此,一种解决方案亟待提出。

技术实现思路

[0004]本申请的多个方面提供一种多模态交互方法、装置、机器人及存储介质,用以提升多模态交互方法的泛化能力。
[0005]本申请实施例提供一种多模态交互方法,包括:获取电子设备在所处场景中采集到的多模态信息;对所述多模态信息进行特征提取,得到多个特征标签;根据所述多个特征标签进行场景化段落编排,得到与所述场景匹配的特征段落;利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集;利用所述控制指令集,通过多模态交互组件与所述场景中的用户进行交互。
[0006]进一步可选地,所述多模态信息包括:音频信息、图像信息、视频信息、记忆信息和触觉信息中的至少两种;对所述多模态信息进行特征提取,得到多个特征标签,包括以下至少两种:利用图像识别算法,对所述图像信息进行识别,得到图像特征;以及,从预设的多个特征标签中,确定与所述图像特征对应的第一特征标签;利用动作识别算法,对所述视频信息进行动作识别,得到动作特征;以及,从预设的多个特征标签中,确定与所述动作特征对应的第二特征标签利用语音识别算法,对所述音频信息进行识别,得到声音特征;以及,从所述预设的多个特征标签中,确定与所述声音特征对应的第三特征标签;解析所述触觉信息,得到触觉特征;以及,从所述预设的多个特征标签中,确定与所述触觉特征对应的第四特征标签;解析所述记忆信息,得到记忆特征;以及,从所述预设的多个特征标签中,确定与所述记忆特征对应的第五特征标签。
[0007]进一步可选地,根据所述多个特征标签进行场景化段落编排,得到与所述场景匹配的特征段落,包括:对所述多个特征标签中的连续的且同类型的特征标签进行离散化,得到离散的多个特征标签;针对所述离散的多个特征标签中的任一个特征标签,从预设的特征模板库中,为所述特征标签选择对应的与所述场景匹配的特征模板;根据所述特征模板,对所述特征标签进行扩充,得到对应的特征句;对扩充得到的多个特征句进行融合,形成与所述场景匹配的特征段落。
[0008]进一步可选地,利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集,包括:利用所述预设的指令推理模型,从预设的问题库中确定与所述特征段落对应的交互问题;对所述交互问题进行问答推理,得到所述交互问题的答案;生成与所述交互问题对应的第一控制指令集;所述第一控制指令集,用于控制交互组件根据交互问题的答案输出交互内容;所述指令推理模型预先采用深度学习算法,通过文本训练集,学习特征段落和交互问题之间匹配关系。
[0009]进一步可选地,利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集,包括:利用所述预设的指令推理模型,将所述特征段落转换为包含多个待定位置的目标段落;在所述目标段落中,对所述多个待定位置的文本进行推理,得到所述多个待定位置各自的文本推理结果;根据所述多个待定位置各自的文本推理结果,生成第二控制指令集;所述第二控制指令集用于控制交互组件根据所述多个待定位置各自的文本推理结果输出交互内容;所述指令推理模型预先采用深度学习算法,通过文本训练集中的待定位置的上下文,学习待定位置的文本推理结果。
[0010]进一步可选地,利用所述控制指令集,通过多模态交互组件与所述场景中的用户进行交互,包括:确定所述多种模态对应的多种交互组件各自的执行时间戳;将所述多种模态对应的多种交互组件各自的执行时间戳以及所述。
[0011]本申请实施例还提供一种多模态交互装置,包括:信息获取模块,用于:获取电子设备在所处场景中采集到的多模态信息;特征提取模块,用于:对所述多模态信息进行特征提取,得到多个特征标签;场景化模块,用于:根据所述多个特征标签进行场景化段落编排,得到与所述场景匹配的特征段落;指令推理模块,用于:利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集;指令控制模块,用于:利用所述控制指令集,通过多模态交互组件与所述场景中的用户进行交互。
[0012]本申请实施例还提供一种机器人,包括:处理器、多模态交互组件以及传感器组件;所述多模态交互组件包括:音频组件、动作组件、显示组件以及表情组件中的至少两种;其中,所述传感器组件用于:采集得到所述机器人所处场景中的多模态信息;所述处理器,用于:对所述多模态信息进行特征提取,得到多个特征标签;根据所述多个特征标签进行场景化段落编排,得到与所述场景匹配的特征段落;利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集;将控制指令集发送至所述多模态交互组件;所述多模态交互组件,用于:接收所述控制指令集,并利用所述控制指令集与所述场景中的用户进行交互。
[0013]进一步可选地,所述模态交互组件,具体用于:根据所述控制指令集,确定所述多模态交互组件中的多个交互组件各自的执行时间戳以及待执行的目标指令;将所述多个交互组件各自的执行时间戳以及目标指令,分别发送至所述多个交互组件,以使得所述多个交互组件根据对应的执行时间戳执行对应的目标指令。
[0014]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,致使所述处理器能够实现所述多模态交互方法中的步骤。
[0015]在本实施例中,可获取电子设备在所处场景中采集到的多模态信息;对多模态信息进行特征提取,得到多个特征标签。根据多个特征标签进行场景化段落编排,得到与场景匹配的特征段落,并利用预设的指令推理模型对特征段落进行推理,并利用推理得到的控
制指令集,通过多模态交互组件与场景中的用户进行交互。通过这种方式,基于从多模态信息中提取出的特征标签进行控制指令的推理操作,可对多模态的输入信息进行融合处理,增强了对多模态的输入信息的理解能力;通过对特征标签进行场景化段落编排以生成特征段落,可使得推理出的控制指令能够动态、灵活地适配交互场景,降低了多模态表达的场景限制,提升了交互方法的泛化性能。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017]图1为本申请一示例性实施例提供的多模态交互方法的流程示意图;
[0018]图2为本申请一示例性实施例提供的多模态交互装置的示意图;
[0019]图3为本申请一示例性实施例提供的机器人的示意图。
具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态交互方法,其特征在于,包括:获取电子设备在所处场景中采集到的多模态信息;对所述多模态信息进行特征提取,得到多个特征标签;根据所述多个特征标签进行场景化段落编排,得到与所述场景匹配的特征段落;利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集;利用所述控制指令集,通过多模态交互组件与所述场景中的用户进行交互。2.根据权利要求1所述的方法,其特征在于,所述多模态信息包括:音频信息、图像信息、视频信息、记忆信息和触觉信息中的至少两种;对所述多模态信息进行特征提取,得到多个特征标签,包括以下至少两种:利用图像识别算法,对所述图像信息进行识别,得到图像特征;以及,从预设的多个特征标签中,确定与所述图像特征对应的第一特征标签;利用动作识别算法,对所述视频信息进行动作识别,得到动作特征;以及,从预设的多个特征标签中,确定与所述动作特征对应的第二特征标签利用语音识别算法,对所述音频信息进行识别,得到声音特征;以及,从所述预设的多个特征标签中,确定与所述声音特征对应的第三特征标签;解析所述触觉信息,得到触觉特征;以及,从所述预设的多个特征标签中,确定与所述触觉特征对应的第四特征标签;解析所述记忆信息,得到记忆特征;以及,从所述预设的多个特征标签中,确定与所述记忆特征对应的第五特征标签。3.根据权利要求1所述的方法,其特征在于,根据所述多个特征标签进行场景化段落编排,得到与所述场景匹配的特征段落,包括:对所述多个特征标签中的连续的且同类型的特征标签进行离散化,得到离散的多个特征标签;从预设的特征模板库中,为所述多个特征标签分别选择特征模板;对所述多个特征标签各自的特征模板进行句子扩充,得到所述多个特征标签各自对应的特征句;对所述多个特征标签各自对应的特征句进行融合,形成用于描述特定场景的特征段落。4.根据权利要求1所述的方法,其特征在于,利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集,包括:利用所述预设的指令推理模型,从预设的问题库中确定与所述特征段落对应的交互问题;对所述交互问题进行问答推理,得到所述交互问题的答案;生成与所述交互问题对应的第一控制指令集;所述第一控制指令集,用于控制所述多模态交互组件输出所述交互问题的答案;其中,所述指令推理模型预先采用深度学习算法,通过文本训练集,学习特征段落和交互问题之间匹配关系。5.根据权利要求1所述的方法,其特征在于,利用预设的指令推理模型对所述特征段落进行推理,得到对应的控制指令集,包括:
利用所述预设的指令推理模型,将所述特征段落转换为包含多个待定位置的目标段落;在所述目标...

【专利技术属性】
技术研发人员:周磊
申请(专利权)人:达闼科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1