当前位置: 首页 > 专利查询>之江实验室专利>正文

一种具身智能机器人的主动多轮对话系统及方法技术方案

技术编号:38890956 阅读:17 留言:0更新日期:2023-09-22 14:15
本发明专利技术公开了一种具身智能机器人的主动多轮对话系统,包括:数据采集模块,用于获取机器人服务范围内的环境信息;历史记录模块,基于用户的身份ID,存储人机多轮对话的交互信息,所述交互信息包括对话内容和交互结果;对话生成模块,用于生成回复文本;具身智能算法模块,生成动作指令以控制机器人靠近用户并进入交互状态;主动对话策略模块,生成对应的主动对话策略;机器人根据生成的回复文本和主动对话策略,在交互状态中执行对话任务。本发明专利技术还提供了一种主动多轮对话方法。本发明专利技术提供的该系统可以有效以多轮对话的方式推动机器人和用户之间的交互任务,从而提高机器人的对话达成率和服务智能程度。达成率和服务智能程度。达成率和服务智能程度。

【技术实现步骤摘要】
一种具身智能机器人的主动多轮对话系统及方法


[0001]本专利技术属于机器人交互控制领域,尤其涉及一种具身智能机器人的主动多轮对话系统及方法。

技术介绍

[0002]常见的对话机器人已经广泛地应用在智能客服,智能音箱等领域。主要包括以下内容:
[0003]语音识别ASR:负责把用户指令从语音转化成文字。语义理解NLU:负责将用户指令的文字解析,变成机器人可理解的内容。对话管理DM:负责执行用户意图,生成反馈信号,决定和用户的对答策略。语言生成NLG:负责把对话管理的策略变成用户可以理解的通顺的文字。输出合成TTS:将应对的文字结果转化成语音给用户。
[0004]以常见的语音对话机器人,多轮对话管理模块一般有三个主要模块,对话模板,对话追踪和对话策略。但对话文案通常都是提前写好,容易出现多轮对话失败的情况。同时因为现有大部分语音机器人(如智能音响)没有主动视觉能力也不能移动,不具备具身智能条件,所以它主要是靠麦克风收音,结合一些声纹识别能力。但是在周围声学环境复杂或者变化大的情况下,声纹识别的准确率不是很高。所以整个对话管理模块经常只能记忆前N轮(常见N=5)的对话,也无法准确区分对象ID。很可能因为声纹出错,把不同人的对话混在一起,或者把同一个人的对话分拆开,所以对话系统无法准确地记录每位服务对象的对话历史。
[0005]专利文献CN116361442A公开了一种基于人工智能的营业厅数据分析方法及系统,该方法采用预构建的意图识别模型对输入的多条指令进行合并,并基于合并结果的语句向量进行相关业务的分类,从而提高业务处理的效率。该方法中提出的多轮对话信息是通过文字方式直接输入,而针对实际场景中的环境噪音影响,可能会存在分类误差。
[0006]专利文献CN116364060A公开了一种车载机器人测试方法、装置、设备及介质,其方法包括根据对话场景,构建对话流;获取车机模拟指令,将车机模拟指令与车载机器人进行接口关联配置,得到机器人模拟指令;将不同车型以及不同车机版本所对应的对话流中每一轮对话的机器人模拟答句进行配置,并对已完成每一轮对话的机器人模拟答句进行相应的机器人模拟问句配置,得到对话测试流;执行对话测试流,从第一轮对话问句开始依次执行并作出相应的模拟响应,直到完成最后一轮对话或中途中断为止。该方法针对环境噪音较小的车辆内部,且文中所提出的多轮对话仅针对按照用户发出指令的顺序执行,存在指令识别错误导致后续指令无法执行的问题。

技术实现思路

[0007]本专利技术的目的是提供一种具身智能机器人的主动多轮对话系统及方法,该系统可以有效以多轮对话的方式推动机器人和用户之间的交互任务,从而提高机器人的对话达成率和服务智能程度。
[0008]为了实现本专利技术的第一目的,提供了一种具身智能机器人的主动多轮对话系统,包括以下模块:
[0009]数据采集模块,用于获取机器人服务范围内的环境信息,所述环境信息包括用户与机器人的相对位姿,和用户的对话状态以及对话内容。
[0010]历史记录模块,基于用户的身份ID,存储人机多轮对话的交互信息,所述交互信息包括对话内容和交互结果。
[0011]对话生成模块,根据输入的对话内容与用户保留在历史记录模块中的对话内容,生成对应的回复文本。
[0012]具身智能算法模块,用于根据获取的相对位姿,生成动作指令以控制机器人靠近用户并进入交互状态。
[0013]主动对话策略模块,根据用户的对话状态和历史记录模块中的交互结果,生成对应的主动对话策略。
[0014]机器人根据生成的回复文本和主动对话策略,在交互状态中执行对话任务。
[0015]本专利技术通过重新设计多轮对话策略,引入具身智能机器人的特性,使得机器人可以有效运用主动视觉和移动能力进行对话状态管理,控制主动发问的节点和节奏,从而有效以多轮对话的方式推动机器人给用户提供服务的能力。
[0016]具体的,所述数据采集模块包括听觉单元,视觉单元以及分析单元。
[0017]所述听觉单元用于采集环境中包含用户和/或其他事物的声音信息。
[0018]所述视觉单元用于采集环境中包含用户和/或其他事物的图像信息。
[0019]所述分析单元,用于基于声音信息和图像信息,生成用户与机器人的相对位姿,和用户的对话状态。
[0020]具体的,所述分析单元还包括对话状态的维护和更新,其维护和更新的表达式如下:
[0021]s
t+1

s
t
+a
t
+o
t+1
[0022]式中,s
t+1
表示t+1时刻的对话状态,s
t
表示前一时刻t的对话状态,a
t
表示前一时刻t的系统行,o
t+1
表示t+1时刻的的用户动作。
[0023]具体的,所述相对位姿包括机器人与用户的相对距离,水平方向角度,以及视线方向。
[0024]具体的,所述对话状态包括用户动作和用户动作对象。
[0025]具体的,所述身份ID包括用户的人脸识别信息或/和声纹识别信息。
[0026]具体的,所述对话生成模块包括预构建的大语言模型,所述大语言模型根据输入的对话内容,生成相关的回复文本。
[0027]具体的,所述动作指令包括机器人的身体转向指令和身体移动指令。
[0028]所述身体转向指令,用于根据用户的交互语音来源方向,对机器人的运动方向进行调节。
[0029]所述身体移动指令,用于根据机器人与用户之间相对距离,驱使机器人运动至用户所在位置。
[0030]具体的,所述主动对话策略包括在目标用户存在失败的交互结果时,根据目标用户的对话状态选择是否主动启动对话。
[0031]为了实现本专利技术的第二个目的,提供了一种主动多轮对话方法,基于上述的具身智能机器人的主动多轮对话系统实现,包括以下步骤:
[0032]机器人为服务范围内已交互用户生成对应的身份ID,并基于所述身份ID记录与用户的对话内容,交互任务执行时间以及交互结果。
[0033]机器人根据服务范围内各用户的身份ID进行历史交互信息的检索,当目标用户存在失败的交互结果,则锁定目标用户并根据历史记录的对话内容和当前对话内容生成对应的回复文本。
[0034]并根据目标用户的对话状态,生成对应的主动对话策略。
[0035]根据生成的主动对话策略与对应的回复文本,执行与目标用户的交互任务:
[0036]当主动对话得到目标用户的回复,则推进历史记录的失败交互任务直至完成;
[0037]当主动对话未得到目标用户的回复,则更新目标用户的对话状态并重新尝试执行交互任务。
[0038]与现有技术相比,本专利技术的有益效果:
[0039]在传统语音对话机器人的基础上,引入具身智能算法模块并结合重新设计的多轮对话系统,从而解决了对话失败/任务执行失败等情况下现有语音机器人无法补救的问题,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具身智能机器人的主动多轮对话系统,其特征在于,包括:数据采集模块,用于获取机器人服务范围内的环境信息,所述环境信息包括用户与机器人的相对位姿,和用户的对话状态以及对话内容;历史记录模块,基于用户的身份ID,存储人机多轮对话的交互信息,所述交互信息包括对话内容和交互结果;对话生成模块,根据输入的对话内容与用户保留在历史记录模块中的对话内容,生成对应的回复文本;具身智能算法模块,用于根据获取的相对位姿,生成动作指令以控制机器人靠近用户并进入交互状态;主动对话策略模块,根据用户的对话状态和历史记录模块中的交互结果,生成对应的主动对话策略;机器人根据生成的回复文本和主动对话策略,在交互状态中执行对话任务。2.根据权利要求1所述的具身智能机器人的主动多轮对话系统,其特征在于,所述数据采集模块包括听觉单元,视觉单元以及分析单元;所述听觉单元用于采集环境中包含用户和/或其他事物的声音信息;所述视觉单元用于采集环境中包含用户或/和机器人的图像信息;所述分析单元,用于基于声音信息和图像信息,生成用户与机器人的相对位姿,和用户的对话状态。3.根据权利要求2所述的具身智能机器人的主动多轮对话系统,其特征在于,所述分析单元还包括对话状态的维护和更新,其维护和更新的表达式如下:s
t+1

s
t
+a
t
+o
t+1
式中,s
t+1
表示t+1时刻的对话状态,s
t
表示前一时刻t的对话状态,a
t
表示前一时刻t的系统行,o
t+1
表示t+1时刻的的用户动作。4.根据权利要求1或2所述的具身智能机器人的主动多轮对话系统,其特征在于,所述相对位姿包括机器人与用户的...

【专利技术属性】
技术研发人员:孙尧宋伟袭向明周元海顾建军朱世强
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1