当前位置: 首页 > 专利查询>上海微电机研究所中国电子科技集团公司第二十一研究所专利>正文

一种基于视听问答的机器人及其控制方法技术

技术编号：38943301 阅读：22 留言：0更新日期：2023-09-25 09:40

本发明专利技术涉及机器人技术领域，公开了一种基于视听问答的机器人及其控制方法，该方法包括：对机器人进行训练，建立问答结果与机器人需执行的任务之间的“问答

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视听问答的机器人及其控制方法

[0001]本专利技术涉及机器人
，特别涉及一种基于视听问答的机器人及其控制方法。

技术介绍

[0002]近年来，在机器人环境感知领域的研究中，在声音对象感知、视觉场景解析和内容描述等方面取得了显著进展，尽管这些方法能将视觉对象与声音关联，但它们中的大多数在复杂视听场景下的跨模态推理能力仍然有限。
[0003]因此，人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务，如视听问答任务等。
[0004]本专利拟在机器人整合视觉和声音的多模态信息，将视听问答(Audio
‑
Visual Question Answering,AVQA)应用于机器人，通过回答有关不同视觉对象、声音及其在视频中的关联的问题，并将相应信息转化为运动控制信号反馈给机器人控制系统，从而大幅提升机器人对场景的感知和理解能力。

技术实现思路

[0005]本专利技术的目的在于提供一种基于视听问答的机器人及其控制方法，能够大幅提升机器人对场景的感知和理解能力。
[0006]为了达到上述目的，本专利技术提供以下技术方案：
[0007]一种基于视听问答的机器人控制方法，包括以下步骤：
[0008]步骤S100：对机器人进行训练，建立问答结果与机器人需执行的任务之间的“问答
‑
任务”关系；
[0009]步骤S201：机器人不断获取周围环境中的视觉信息和音频信息；
[0010]步骤S202：利...

【技术保护点】

【技术特征摘要】
1.一种基于视听问答的机器人控制方法，其特征在于，包括以下步骤：步骤S100：对机器人进行训练，建立问答结果与机器人需执行的任务之间的“问答
‑
任务”关系；步骤S201：机器人不断获取周围环境中的视觉信息和音频信息；步骤S202：利用视听问答模块对预先设定好的问题进行回答，并给出相应的结果；步骤S203：根据预先建立好的“问答
‑
任务”关系，将视听问答的结果转化为对应的任务，并转化为信号发送给机器人的运动控制系统，使机器人完成相应的任务。2.根据权利要求1所述的基于视听问答的机器人控制方法，其特征在于，步骤S100具体包括：步骤S101：令机器人采集环境视频和音频的数据集，预先设定问题，并建立相应的视听问答对；步骤S102：基于所述数据集进行视听问答模块的训练，并将所述视听问答模块部署到机器人；步骤S103：建立问答结果与机器人需执行任务之间互相对应的“问答
‑
任务”关系。3.根据权利要求2所述的基于视听问答的机器人控制方法，其特征在于，在步骤S101中，所述采集环境视频和音频的数据集包括：在机器人设置声音传感器以及视觉传感器，通过所述声音传感器采集环境的音频数据、通过所述视觉传感器采集环境的视频数据。4.根据权利要求2所述的基于视听问答的机器人控制方...

【专利技术属性】
技术研发人员：侯晓楠，王春雷，詹明昊，
申请(专利权)人：上海微电机研究所中国电子科技集团公司第二十一研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人