一种具身智能机器人的主动多轮对话系统及方法技术方案

技术编号：38890956 阅读：17 留言：0更新日期：2023-09-22 14:15

本发明专利技术公开了一种具身智能机器人的主动多轮对话系统，包括：数据采集模块，用于获取机器人服务范围内的环境信息；历史记录模块，基于用户的身份ID，存储人机多轮对话的交互信息，所述交互信息包括对话内容和交互结果；对话生成模块，用于生成回复文本；具身智能算法模块，生成动作指令以控制机器人靠近用户并进入交互状态；主动对话策略模块，生成对应的主动对话策略；机器人根据生成的回复文本和主动对话策略，在交互状态中执行对话任务。本发明专利技术还提供了一种主动多轮对话方法。本发明专利技术提供的该系统可以有效以多轮对话的方式推动机器人和用户之间的交互任务，从而提高机器人的对话达成率和服务智能程度。达成率和服务智能程度。达成率和服务智能程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种具身智能机器人的主动多轮对话系统及方法

[0001]本专利技术属于机器人交互控制领域，尤其涉及一种具身智能机器人的主动多轮对话系统及方法。

技术介绍

[0002]常见的对话机器人已经广泛地应用在智能客服,智能音箱等领域。主要包括以下内容：
[0003]语音识别ASR:负责把用户指令从语音转化成文字。语义理解NLU:负责将用户指令的文字解析，变成机器人可理解的内容。对话管理DM:负责执行用户意图,生成反馈信号，决定和用户的对答策略。语言生成NLG：负责把对话管理的策略变成用户可以理解的通顺的文字。输出合成TTS:将应对的文字结果转化成语音给用户。
[0004]以常见的语音对话机器人，多轮对话管理模块一般有三个主要模块，对话模板，对话追踪和对话策略。但对话文案通常都是提前写好，容易出现多轮对话失败的情况。同时因为现有大部分语音机器人(如智能音响)没有主动视觉能力也不能移动，不具备具身智能条件，所以它主要是靠麦克风收音，结合一些声纹识别能力。但是在周围声学环境复杂或者变化大的情况下，声纹识别的准确率不是很高。所以整个对话管理模块经常只能记忆前N轮(常见N＝5)的对话，也无法准确区分对象ID。很可能因为声纹出错，把不同人的对话混在一起，或者把同一个人的对话分拆开，所以对话系统无法准确地记录每位服务对象的对话历史。
[0005]专利文献CN116361442A公开了一种基于人工智能的营业厅数据分析方法及系统，该方法采用预构建的意图识别模型对输入的多条指令进行合并，并基于合并结果的语句向量进行相关业务...

【技术保护点】

【技术特征摘要】
1.一种具身智能机器人的主动多轮对话系统，其特征在于，包括：数据采集模块，用于获取机器人服务范围内的环境信息，所述环境信息包括用户与机器人的相对位姿，和用户的对话状态以及对话内容；历史记录模块，基于用户的身份ID，存储人机多轮对话的交互信息，所述交互信息包括对话内容和交互结果；对话生成模块，根据输入的对话内容与用户保留在历史记录模块中的对话内容，生成对应的回复文本；具身智能算法模块，用于根据获取的相对位姿，生成动作指令以控制机器人靠近用户并进入交互状态；主动对话策略模块，根据用户的对话状态和历史记录模块中的交互结果，生成对应的主动对话策略；机器人根据生成的回复文本和主动对话策略，在交互状态中执行对话任务。2.根据权利要求1所述的具身智能机器人的主动多轮对话系统，其特征在于，所述数据采集模块包括听觉单元，视觉单元以及分析单元；所述听觉单元用于采集环境中包含用户和/或其他事物的声音信息；所述视觉单元用于采集环境中包含用户或/和机器人的图像信息；所述分析单元，用于基于声音信息和图像信息，生成用户与机器人的相对位姿，和用户的对话状态。3.根据权利要求2所述的具身智能机器人的主动多轮对话系统，其特征在于，所述分析单元还包括对话状态的维护和更新，其维护和更新的表达式如下：s
t+1
←
s
t
+a
t
+o
t+1
式中，s
t+1
表示t+1时刻的对话状态，s
t
表示前一时刻t的对话状态，a
t
表示前一时刻t的系统行，o
t+1
表示t+1时刻的的用户动作。4.根据权利要求1或2所述的具身智能机器人的主动多轮对话系统，其特征在于，所述相对位姿包括机器人与用户的...

【专利技术属性】
技术研发人员：孙尧，宋伟，袭向明，周元海，顾建军，朱世强，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人