管理用户与机器人之间的会话制造技术

技术编号:35893778 阅读:16 留言:0更新日期:2022-12-10 10:26
示例性实施方式可以:从一个或多个输入模态接收包括关于物理环境的参数或测量值的一个或多个输入;基于分析从该一个或多个输入模态接收的输入来识别用户;通过分析用户的身体动作、视觉动作和/或音频动作来确定该用户是否表现出参与或有兴趣建立交流交互的迹象,该用户的身体动作、视觉动作和/或音频动作是至少部分地基于从一个或多个输入模态接收的一个或多个输入来确定的;以及通过使用显示设备创建该机器人计算设备的视觉动作或通过生成要由一个或多个扬声器再现的一个或多个音频文件来确定该用户是否对与该机器人计算设备的扩展交流交互感兴趣。的扩展交流交互感兴趣。的扩展交流交互感兴趣。

【技术实现步骤摘要】
【国外来华专利技术】管理用户与机器人之间的会话
相关申请的交叉引用
[0001]本申请要求于2020年2月29日提交的名称为“Systems And Methods To Manage Conversation Interactions Between A User And A Robot Computing Device Or Conversation Agent[管理用户与机器人计算设备或会话代理之间的会话交互的系统和方法]”的美国临时专利申请序列号62/983,590和于2021年2月25日提交的名称为“Systems And Methods To Manage Conversation Interactions Between A User And A Robot Computing Device Or Conversation Agent[管理用户与机器人计算设备或会话代理之间的会话交互的系统和方法]”的美国临时专利申请序列号63/153,888的优先权,这两个美国临时专利申请的内容均通过引用以其全文并入本文。


[0001]本披露涉及用于管理用户与机器人计算设备之间的交流交互的系统和方法。

技术介绍

[0002]成功的人与人之间的交流就像一场舞蹈,是对话者之间不断但协调的来回。人类对话者之间的话轮转换和切换发言权是无缝的,并且无需明确的信号即可工作,例如告诉对方发言或给出说话者让出发言权的手势信号。人类能够很自然地理解某人是否参与会话。所有这些技能也可以进一步扩展到多方交互。
[0003]相比之下,人机交互目前是非常繁琐且不对称的,需要人类用户明确地使用所谓的唤醒词或热词(“Alexa”、“嗨,Siri”、“OK,Google”等)来发起会话事务并提供经常学习的明确命令或短语以呈现成功的结果。交互仅以单事务方式运行(即,人类用户有明确的请求,而代理提供单一的响应)。因此,多轮交互很少见,并且仅限于收集信息或减少歧义的直接请求(例如,用户:“Alexa,我想预订(Alexa,I want to make a reservation)。”,Alexa:“好的,哪家餐厅(Ok,which restaurant)?”,用户:“圣莫尼卡的Tar and Roses(Tar and Roses in Santa Monica)”)。当前的会话代理也是完全反应性的,并且在用户对交互失去兴趣后不会主动与用户互动或重新互动。进一步地,最先进的会话代理很少使用多模态输入来更好地理解用户的意图、当前状态或消息,或消除这些信息的歧义。因此,需要分析多模态输入并提供更像人类的会话交互的会话代理或模块。

技术实现思路

[0004]在参考附图考虑以下描述和所附权利要求时,这些和其他特征和本专利技术技术的特性、以及相关结构元素的操作方法和功能、以及零件的组合与制造的经济性将变得更加显而易见,所有附图形成本说明书的一部分,在附图中,相同的附图标记表示各个附图中的对应部分。然而,将明确了解的是,附图仅出于说明和描述的目的,而不旨在作为对本专利技术的限制的限定。如在本说明书和权利要求中所使用的,除非上下文中另外明确指明,否则单数形式的“一个(a)”、“一个(an)”以及“该(the)”包括复数对象。
附图说明
[0005]图1A图示了根据一种或多种实施方式的用于与儿童和/或父母互动的社交机器人或数字伴侣的系统。
[0006]图1B图示了根据一种或多种实施方式的儿童与社交机器人或数字伴侣互动的系统中的模块或子系统。
[0007]图1C图示了根据一种或多种实施方式的儿童与社交机器人或数字伴侣互动的系统中的模块或子系统。
[0008]图2图示了根据一些实施方式的示例性机器人计算设备的系统架构。
[0009]图3图示了根据一种或多种实施方式的被配置为管理用户与机器人计算设备之间的交流交互的计算设备或机器人计算设备。
[0010]图4A图示了根据一种或多种实施方式的用于管理用户与机器人计算设备之间的交流交互的方法。
[0011]图4B图示了根据一种或多种实施方式的用于扩展用户与机器人计算设备之间的交流交互的方法。
[0012]图4C图示了根据一种或多种实施方式的与在会话交互中表现出脱离迹象的用户重新互动的方法。
[0013]图4D图示了根据一种或多种实施方式的使用来自存储器设备或机器人计算设备的过去参数和测量值来辅助当前会话交互的方法。
[0014]图4E图示了根据一种或多种实施方式的测量和存储会话交互的长度。
[0015]图4F图示了根据一些一种或多种实施方式的确定与多个用户的会话交互中的互动水平。
[0016]图5图示了根据一种或多种实施方式的机器人计算设备和/或人类用户之间的会话的框图。
具体实施方式
[0017]以下详细描述根据本文披露的实施例提供了对在本披露中描述的专利技术的特征和优点的更好了解。尽管详细描述包括许多具体实施例,但这些仅作为示例提供并且不应被解释为限制本文所披露的专利技术的范围。
[0018]在当前的会话代理或模块中,大多数多模态信息被丢弃和忽略。然而,在下文描述的主题中,可以利用多模态信息来更好地理解含义或意图,以及消除这些信息的歧义。例如,试图在不利用用户手势(即指向特定方向)的情况下对口语短语“把那边的那个东西拿给我(go get me that from over there)”做出反应的系统无法做出反应,从而无法跟进请求。例如,伴随着皱眉的拉长口语“yeah”(通常与怀疑或困惑相关联)的含义与伴随着点头的较短口语“yeah”(通常与积极和愉快的反馈相关联)明显不同。进一步地,当仅凭口语内容不足以理解完整的上下文时,可以使用口语的韵律和声调、面部表情或姿势来理解消息的情感或感情。另外,来自成像设备和/或一个或多个话音输入设备(如麦克风)的多模态输入可以用于管理会话的话轮转换行为。这种多模态输入的示例包括人类用户的注视、人类相对于机器人计算设备的取向、话音的语调和/或可以用于管理话轮转换行为的语音。作为示例,在一些实施方式中,伴随目光接触的停顿清楚地表明了让出发言权的意图,而转移
眼睛注视的停顿是积极思考和保持发言权的意图的强烈信号。
[0019]在输出侧,当前的人工会话代理主要使用语音作为其唯一的输出模态。当前的人工会话代理未增强所传达的口语消息。另外,当前的会话代理未尝试通过使用来自成像设备和/或麦克风和相关软件的附加多模态信息来管理会话交互的流程及其输出。换句话说,当前的会话代理不捕获和/或不使用面部表情、话音音调变化、视觉辅助(如覆盖(overlay)、手势或其他输出)来增强它们的输出。缺乏使用这些信息会导致会话交互非常单调,其特点是短话轮(用户或代理不能将发言权保持超过一次语音连发)和长停顿(以确保会话代理不会打断用户的发言回合)、和/或会话代理在响应时由于谨慎而出错)。
[0020]进一步地,当前的会话代理或软件在很大程度上忽略了多用户场景的可能性,并且将每个用户视为他们自己与机器人计算设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于管理用户与机器人计算设备之间的交流交互的方法,该方法包括:访问来自一个或多个存储器设备的计算机可读指令以供该机器人计算设备的一个或多个处理器执行;由该机器人计算设备的该一个或多个处理器执行从该一个或多个存储器设备访问的这些计算机可读指令;并且其中,执行这些计算机可读指令进一步包括:从一个或多个输入模态接收包括关于物理环境的参数或测量值的一个或多个输入;基于分析从该一个或多个输入模态接收的输入来识别用户;通过分析用户的身体动作、视觉动作和/或音频动作来确定该用户是否表现出参与或有兴趣建立交流交互的迹象,该用户的身体动作、视觉动作和/或音频动作是至少部分地基于从一个或多个输入模态接收的一个或多个输入来确定的;以及通过使用显示设备创建该机器人计算设备的视觉动作或通过生成要由该机器人计算设备的一个或多个扬声器再现的一个或多个音频文件来确定该用户是否对与该机器人计算设备的扩展交流交互感兴趣。2.如权利要求1所述的方法,其中,这些输入模态包括一个或多个传感器、一个或多个麦克风或一个或多个成像设备。3.如权利要求1所述的方法,其中,被分析的该用户的物理或视觉动作包括通过该成像设备和/或这些传感器设备捕获的该用户的面部表情、该用户的姿势和/或该用户的手势。4.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:通过检查该用户的语言上下文和该用户的话音音调变化以分析从该一个或多个麦克风接收的该用户的音频输入文件来确定该用户对该扩展交流交互的兴趣。5.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:通过分析由该成像设备和/或这些传感器设备捕获的该用户的面部表情、该用户的姿势和/或该用户的手势来确定是否在与该用户的扩展交流交互中发起话轮;以及通过将一个或多个音频文件传送给扬声器来在与该用户的扩展交流交互中发起该话轮。6.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:通过分析从该一个或多个麦克风接收的该用户的音频输入文件以检查该用户的语言上下文和/或该用户的话音音调变化来确定是否在与该用户的扩展交流交互中发起话轮;以及通过将一个或多个音频文件传送给扬声器来在与该用户的扩展交流交互中发起该话轮。7.如权利要求5或6所述的方法,其中,执行这些计算机可读指令进一步包括:通过分析由该成像设备和/或这些传感器设备捕获的该用户的面部表情、该用户的姿势和/或该用户的手势来确定何时结束与该用户的扩展交流交互中的话轮;以及通过停止向该扬声器传输音频文件来停止该扩展交流交互中的话轮。8.如权利要求5或6所述的方法,其中,执行这些计算机可读指令进一步包括:通过分析从该一个或多个麦克风接收的该用户的音频输入文件以检查该用户的语言上下文和该用户的话音音调变化来确定何时结束与该用户的扩展交流交互中的话轮;以及
通过停止向该扬声器传输音频文件来停止该扩展交流交互中的话轮。9.如权利要求5或6所述的方法,其中,执行这些计算机可读指令进一步包括:通过继续分析从该一个或多个输入模态接收的参数或测量值来确定该用户在该扩展交流交互中表现出会话脱离的迹象;以及为该机器人计算设备的输出模态生成动作或事件,以尝试与用户重新互动,以继续进行该扩展交流交互。10.如权利要求9所述的方法,其中,这些输出模态包括一个或多个显示器、一个或多个扬声器或用于使该机器人的身体的附肢或一部分移动的一个或多个马达。11.如权利要求10所述的方法,其中,这些动作或事件包括将一个或多个音频文件传输到该机器人计算设备的一个或多个扬声器以产生声音,从而尝试与该用户重新互动。12.如权利要求10所述的方法,其中,这些动作或事件包括将指令或命令传输到该机器人计算设备的显示器以创建用于该机器人计算设备的面部表情。13.如权利要求10所述的方法,其中,这些动作或事件包括将指...

【专利技术属性】
技术研发人员:斯蒂芬
申请(专利权)人:具象有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1