一种基于视听问答的机器人及其控制方法技术

技术编号:38943301 阅读:22 留言:0更新日期:2023-09-25 09:40
本发明专利技术涉及机器人技术领域,公开了一种基于视听问答的机器人及其控制方法,该方法包括:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答

【技术实现步骤摘要】
一种基于视听问答的机器人及其控制方法


[0001]本专利技术涉及机器人
,特别涉及一种基于视听问答的机器人及其控制方法。

技术介绍

[0002]近年来,在机器人环境感知领域的研究中,在声音对象感知、视觉场景解析和内容描述等方面取得了显著进展,尽管这些方法能将视觉对象与声音关联,但它们中的大多数在复杂视听场景下的跨模态推理能力仍然有限。
[0003]因此,人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务,如视听问答任务等。
[0004]本专利拟在机器人整合视觉和声音的多模态信息,将视听问答(Audio

Visual Question Answering,AVQA)应用于机器人,通过回答有关不同视觉对象、声音及其在视频中的关联的问题,并将相应信息转化为运动控制信号反馈给机器人控制系统,从而大幅提升机器人对场景的感知和理解能力。

技术实现思路

[0005]本专利技术的目的在于提供一种基于视听问答的机器人及其控制方法,能够大幅提升机器人对场景的感知和理解能力。
[0006]为了达到上述目的,本专利技术提供以下技术方案:
[0007]一种基于视听问答的机器人控制方法,包括以下步骤:
[0008]步骤S100:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答

任务”关系;
[0009]步骤S201:机器人不断获取周围环境中的视觉信息和音频信息;
[0010]步骤S202:利用视听问答模块对预先设定好的问题进行回答,并给出相应的结果;
[0011]步骤S203:根据预先建立好的“问答

任务”关系,将视听问答的结果转化为对应的任务,并转化为信号发送给机器人的运动控制系统,使机器人完成相应的任务。
[0012]这种控制方法,充分利用环境中的视觉和声音信息,多模态信息提高了机器人对周围环境的理解和感知能力,同时增强了机器人的鲁棒性;视听问答可以回答视觉对象、声音及其在视频中关联关系的问题,从而赋予了机器人更为灵活的交互能力。
[0013]可选地,步骤S100具体包括:
[0014]步骤S101:令机器人采集环境视频和音频的数据集,预先设定问题,并建立相应的视听问答对;
[0015]步骤S102:基于数据集进行视听问答模块的训练,并将视听问答模块部署到机器人;
[0016]步骤S103:建立问答结果与机器人需执行任务之间互相对应的“问答

任务”关系。
[0017]可选地,在步骤S101中,采集环境视频和音频的数据集包括:在机器人设置声音传
感器以及视觉传感器,通过声音传感器采集环境的音频数据、通过视觉传感器采集环境的视频数据。
[0018]可选地,在步骤S101中,预先设定问题包括:此声音是否由A发出;视频中一共有多少人在说话;说话的人在视频中的什么位置。
[0019]可选地,在步骤S103中,机器人需执行任务包括:将说话人在视频中的位置换算成实际位置,并移动至说话人的位置。
[0020]可选地,控制方法还包括:步骤S300:获取说话人的语音口令,按语音口令进行后续任务。
[0021]可选地,步骤S300具体包括:
[0022]步骤S301,机器人通过音频传感器获取说话人的语音口令;
[0023]步骤S302,将语音口令传话为信号发送给机器人的运动控制系统;
[0024]步骤S303,运动控制系统按语音口令指示进行后续任务。
[0025]可选地,语音口令包括:去自主充电。
[0026]可选地,语音口令包括:将a货物搬运到X地点。
[0027]一种基于视听问答的机器人,适用于上述的任一种基于视听问答的机器人控制方法,包括:声音传感器、视觉传感器、视听问答模块、音频传感器以及运动控制系统。
附图说明
[0028]构成本申请的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。其中:
[0029]图1为本专利技术实施例提供的基于视听问答的机器人控制方法的流程图。
具体实施方式
[0030]下面将参考附图并结合实施例来详细说明本专利技术。各个示例通过本专利技术的解释的方式提供而非限制本专利技术。实际上,本领域的技术人员将清楚,在不脱离本专利技术的范围或精神的情况下,可在本专利技术中进行修改和变型。例如,示为或描述为一个实施例的一部分的特征可用于另一个实施例,以产生又一个实施例。因此,所期望的是,本专利技术包含归入所附权利要求及其等同物的范围内的此类修改和变型。
[0031]在本专利技术的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术而不是要求本专利技术必须以特定的方位构造和操作,因此不能理解为对本专利技术的限制。本专利技术中使用的术语“相连”、“连接”、“设置”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接;可以是直接相连,也可以通过中间部件间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0032]本专利技术实施例提供一种基于视听问答的机器人控制方法,包括以下步骤:
[0033]步骤S100:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答

任务”关系;
[0034]步骤S201:机器人不断获取周围环境中的视觉信息和音频信息;
[0035]步骤S202:利用视听问答模块对预先设定好的问题进行回答,并给出相应的结果;
[0036]步骤S203:根据预先建立好的“问答

任务”关系,将视听问答的结果转化为对应的任务,并转化为信号发送给机器人的运动控制系统,使机器人完成相应的任务。
[0037]本实施例中,这种控制方法充分利用环境中的视觉和声音信息,多模态信息提高了机器人对周围环境的理解和感知能力,同时增强了机器人的鲁棒性;视听问答可以回答视觉对象、声音及其在视频中关联关系的问题,从而赋予了机器人更为灵活的交互能力。
[0038]作为一种可选的实施例,步骤S100具体包括:
[0039]步骤S101:令机器人采集环境视频和音频的数据集,预先设定问题,并建立相应的视听问答对;
[0040]步骤S102:基于数据集进行视听问答模块的训练,并将视听问答模块部署到机器人;
[0041]步骤S103:建立问答结果与机器人需执行任务之间互相对应的“问答

任务”关系。
[0042]具体地,在步骤S101中,采集环境视频和音频的数据集包括:在机器人设置声音传感器以及视觉传感器,通过声音传感器采集环境的音频数据、通过视觉传感器采集环境的视频数据。
[0043]本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视听问答的机器人控制方法,其特征在于,包括以下步骤:步骤S100:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答

任务”关系;步骤S201:机器人不断获取周围环境中的视觉信息和音频信息;步骤S202:利用视听问答模块对预先设定好的问题进行回答,并给出相应的结果;步骤S203:根据预先建立好的“问答

任务”关系,将视听问答的结果转化为对应的任务,并转化为信号发送给机器人的运动控制系统,使机器人完成相应的任务。2.根据权利要求1所述的基于视听问答的机器人控制方法,其特征在于,步骤S100具体包括:步骤S101:令机器人采集环境视频和音频的数据集,预先设定问题,并建立相应的视听问答对;步骤S102:基于所述数据集进行视听问答模块的训练,并将所述视听问答模块部署到机器人;步骤S103:建立问答结果与机器人需执行任务之间互相对应的“问答

任务”关系。3.根据权利要求2所述的基于视听问答的机器人控制方法,其特征在于,在步骤S101中,所述采集环境视频和音频的数据集包括:在机器人设置声音传感器以及视觉传感器,通过所述声音传感器采集环境的音频数据、通过所述视觉传感器采集环境的视频数据。4.根据权利要求2所述的基于视听问答的机器人控制方...

【专利技术属性】
技术研发人员:侯晓楠王春雷詹明昊
申请(专利权)人:上海微电机研究所中国电子科技集团公司第二十一研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1