多模态交互方法、装置、机器人及存储介质制造方法及图纸

技术编号：37638579 阅读：10 留言：0更新日期：2023-05-25 10:05

本申请实施例提供一种多模态交互方法、装置、机器人及存储介质。在该方法中，可对获取的多模态信息进行特征提取，得到多个特征标签。根据多个特征标签进行场景化段落编排，得到与场景匹配的特征段落，利用预设的指令推理模型对特征段落进行推理，并利用得到的控制指令集，通过多模态交互组件与场景中的用户进行交互。通过这种方式，基于从多模态信息中提取出的特征标签进行控制指令的推理操作，可对多模态的输入信息进行融合处理，增强了对多模态的输入信息的理解能力；通过对特征标签进行场景化段落编排以生成特征段落，可使得推理出的控制指令能够动态、灵活地适配交互场景，降低了多模态表达的场景限制，提升了交互方法的泛化性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
多模态交互方法、装置、机器人及存储介质

[0001]本申请涉及计算机
，尤其涉及一种多模态交互方法、装置、机器人及存储介质。

技术介绍

[0002]随着智能机器人的相关技术的发展，各种新型的机器人不断推陈出新，比如，家庭保姆机器人和作业机器人等等。
[0003]现有技术中，机器人通常可对单模态信息进行识别，并与用户进行相应地交互。其中，单模态信息即单一形式的信息，可为文本、语音或者视频等等。目前，存在基于规则匹配的方法进行多模态表达的方法，但是这种方法灵活适配不同交互场景，泛化性能较差。因此，一种解决方案亟待提出。

技术实现思路

[0004]本申请的多个方面提供一种多模态交互方法、装置、机器人及存储介质，用以提升多模态交互方法的泛化能力。
[0005]本申请实施例提供一种多模态交互方法，包括：获取电子设备在所处场景中采集到的多模态信息；对所述多模态信息进行特征提取，得到多个特征标签；根据所述多个特征标签进行场景化段落编排，得到与所述场景匹配的特征段落；利用预设的指令推理模型对所述特征段落进行推理，得到对应的控制指令集；利用所述控制指令集，通过多模态交互组件与所述场景中的用户进行交互。
[0006]进一步可选地，所述多模态信息包括：音频信息、图像信息、视频信息、记忆信息和触觉信息中的至少两种；对所述多模态信息进行特征提取，得到多个特征标签，包括以下至少两种：利用图像识别算法，对所述图像信息进行识别，得到图像特征；以及，从预设的多个特征标签中，确定与所述图像特征对应的第一特征...

【技术保护点】

【技术特征摘要】
1.一种多模态交互方法，其特征在于，包括：获取电子设备在所处场景中采集到的多模态信息；对所述多模态信息进行特征提取，得到多个特征标签；根据所述多个特征标签进行场景化段落编排，得到与所述场景匹配的特征段落；利用预设的指令推理模型对所述特征段落进行推理，得到对应的控制指令集；利用所述控制指令集，通过多模态交互组件与所述场景中的用户进行交互。2.根据权利要求1所述的方法，其特征在于，所述多模态信息包括：音频信息、图像信息、视频信息、记忆信息和触觉信息中的至少两种；对所述多模态信息进行特征提取，得到多个特征标签，包括以下至少两种：利用图像识别算法，对所述图像信息进行识别，得到图像特征；以及，从预设的多个特征标签中，确定与所述图像特征对应的第一特征标签；利用动作识别算法，对所述视频信息进行动作识别，得到动作特征；以及，从预设的多个特征标签中，确定与所述动作特征对应的第二特征标签利用语音识别算法，对所述音频信息进行识别，得到声音特征；以及，从所述预设的多个特征标签中，确定与所述声音特征对应的第三特征标签；解析所述触觉信息，得到触觉特征；以及，从所述预设的多个特征标签中，确定与所述触觉特征对应的第四特征标签；解析所述记忆信息，得到记忆特征；以及，从所述预设的多个特征标签中，确定与所述记忆特征对应的第五特征标签。3.根据权利要求1所述的方法，其特征在于，根据所述多个特征标签进行场景化段落编排，得到与所述场景匹配的特征段落，包括：对所述多个特征标签中的连续的且同类型的特征标签进行离散化，得到离散的多个特征标签；从预设的特征模板库中，为所述多个特征标签分别选择特征模板；对所述多个特征标签各自的特征模板进行句子扩充，得到所述多个特征标签各自对应的特征句；对所述多个特征标签各自对应的特征句进行融合，形成用于描述特定场景的特征段落。4.根据权利要求1所述的方法，其特征在于，利用预设的指令推理模型对所述特征段落进行推理，得到对应的控制指令集，包括：利用所述预设的指令推理模型，从预设的问题库中确定与所述特征段落对应的交互问题；对所述交互问题进行问答推理，得到所述交互问题的答案；生成与所述交互问题对应的第一控制指令集；所述第一控制指令集，用于控制所述多模态交互组件输出所述交互问题的答案；其中，所述指令推理模型预先采用深度学习算法，通过文本训练集，学习特征段落和交互问题之间匹配关系。5.根据权利要求1所述的方法，其特征在于，利用预设的指令推理模型对所述特征段落进行推理，得到对应的控制指令集，包括：
利用所述预设的指令推理模型，将所述特征段落转换为包含多个待定位置的目标段落；在所述目标...

【专利技术属性】
技术研发人员：周磊，
申请(专利权)人：达闼科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人