人机交互的方法、装置和设备制造方法及图纸

技术编号：40790007 阅读：2 留言：0更新日期：2024-03-28 19:20

本申请提供一种人机交互的方法、装置和设备，所述方法用于机器人与用户之间的互动，包括：检测所述用户是否朝向所述机器人；在所述用户朝向所述机器人的情况下，获取所述用户的语音信息；根据所述语音信息确定所述用户的语音是否针对所述机器人；在所述用户的语音是针对所述机器人的情况下，确定所述用户有与所述机器人进行语言交互的意愿。相比于通过用户说出唤醒词来表达其语言意图的方式，提升了语音交互的连贯性，并且由于在理解用户的语意之前，先检测用户是否朝向机器人，并在用户朝向机器人的情况下才对用户的语音信息进行收集分析，在一定程度上避免了对用户语音的过度解析。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，并且更具体地，涉及一种人机交互的方法、装置和设备。

技术介绍

1、随着人工智能技术的不断地发展，机器人的种类越来越多。其中，家庭机器人是比较常见的一种机器人，其可以通过与用户之间的交互，来增加用户的幸福感，减轻用户的压力。例如，在家庭生活中，父母不能陪伴儿童时，儿童可以与机器人进行交互，比如进行对话、娱乐或者学习等。为此，如何提升用户与机器人之间的交互体验，成为需要解决的问题。

技术实现思路

1、本申请实施例提供一种人机交互的方法、装置和设备，能够提升用户与机器人之间的交互体验。

2、第一方面，提供一种人机交互的方法，用于机器人与用户之间的互动，所述方法包括：检测所述用户是否朝向所述机器人；在所述用户朝向所述机器人的情况下，获取所述用户的语音信息；根据所述语音信息确定所述用户的语音是否针对所述机器人；在所述用户的语音是针对所述机器人的情况下，确定所述用户有与所述机器人进行语言交互的意愿。

3、本申请实施例中，通过检测用户的语言意图信息，确定用户是否有与机器人进行语言交互的意愿，该语言意图信息包括至少两种触发条件，例如分别为用户的朝向、以及用户的语意理解。相比于通过用户说出唤醒词来表达其语言意图的方式，提升了语音交互的连贯性，并且由于在理解用户的语意之前，先检测用户是否朝向机器人，并在用户朝向机器人的情况下才会对用户的语音信息进行收集分析，在一定程度上避免了对用户语音的过度解析，保护了用户的语言隐私。

4、在一些可能的实现

5、在该实现方式中，检测用户的脸部和/或眼神的方向，能够更准确地判断用户是否朝向机器人。

6、在一些可能的实现方式中，所述检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人，包括：检测所述用户的脸部是否朝向所述机器人，并在所述用户的脸部的方向朝向所述机器人的情况下，检测所述用户的眼神是否朝向所述机器人；其中，所述检测所述用户是否朝向所述机器人，包括：在所述用户的眼神朝向所述机器人的情况下，确定所述用户朝向所述机器人。

7、在该实现方式中，检测用户的脸部是否朝向机器人，并在脸部朝向机器人的情况下，检测用户的眼神是否朝向机器人，从而在脸部和眼神均朝向机器人的情况下，再通过分析用户的语意判断用户是否有与机器人进行语言交互意愿。由于同时考虑了脸部和眼神的方向，使得判断用户是否朝向机器人的条件更加严格，对用户是否有语言交互意愿的判断也更加准确。

8、在一些可能的实现方式中，所述检测所述用户的脸部是否朝向所述机器人，包括：获取所述用户的脸部图像、以及脸部的关键点的坐标信息；将所述脸部图像和所述关键点的坐标信息输入预设的深度学习模型，并获取所述深度学习模型输出的脸部的方向角信息，所述方向角信息包括分别沿x轴、y轴和z轴的旋转角度，x轴、y轴和z轴相互垂直；根据所述方向角信息，确定所述用户的脸部是否朝向所述机器人。

9、在该实现方式中，可以预先训练用于检测用户脸部方向的深度学习模型，将用户的脸部图像和脸部的关键点的坐标信息输入该深度学习模型，该深度学习模型可以输出脸部的方向角信息，包括沿自身坐标系的x轴、y轴和z轴的旋转角度。根据脸部的方向角信息可以确定用户的脸部是否朝向机器人。

10、在一些可能的实现方式中，所述检测所述用户的眼神是否朝向所述机器人，包括：获取所述用户的眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息；根据所述眼眶的关键点的坐标信息、以及所述瞳孔的关键点的坐标信息，确定所述眼眶与所述瞳孔之间的相对位置；根据所述相对位置，确定所述用户的眼神是否朝向所述机器人。

11、在该实现方式中，利用眼眶的关键点的坐标信息和瞳孔的关键点的坐标信息判断二者的相对位置，便能够确定用户的眼神是否朝向机器人。例如，瞳孔位于眼眶的中心区域的情况下，可以认为用户的眼神朝向机器人，即用户正在注视机器人。

12、在一些可能的实现方式中，所述根据所述语音信息确定所述用户的语音是否针对所述机器人，包括：基于asr技术，将所述语音信息转换为文本信息；基于nlp技术，对所述文本信息进行分析，确定所述文本信息的内容是否有意义；在所述文本信息的内容有意义的情况下，确定所述用户的语音是否针对所述机器人。

13、在该实现方式中，利用asr技术将用户的语音转换为文本信息，并基于nlp技术对其进行分析，确定其内容是否有意义，并在内容有意义的情况下判断这段文本信息是否针对机器人，能够准确且高效地获取判断用户说的话是否是对机器人说的。

14、在一些可能的实现方式中，所述在所述用户朝向所述机器人的情况下，获取所述用户的语音信息，包括：在所述用户朝向所述机器人的情况下，识别所述用户的嘴部动作；在识别到所述用户的嘴部动作的情况下，获取所述用户的语音信息。

15、在该实现方式中，语言意图信息还可以包括另一种触发条件，其包括用户的嘴部动作和/或语音。在用户朝向机器人的情况下，接着判断是否识别到用户的嘴部动作和/或语音，在识别到用户的嘴部动作和/或语音的情况下，分析用户的语意，以判断用户是否是在对机器人说话。通过三层触发条件，进一步提升了分析用户语意的门槛，更有效地避免了对用户语音的过度解析，保护了用户的语言隐私。

16、在一些可能的实现方式中，所述方法还包括：在确定用户有与所述机器人进行语言交互的意愿的情况下，根据所述语音信息，获取回复内容、以及与所述回复内容相匹配的情绪信息，其中，所述情绪信息包括以下中的至少一种：与所述回复内容相匹配的语言情绪、与所述回复内容相匹配的肢体动作、以及与所述回复内容相匹配的微动作；根据所述回复内容和所述情绪信息，对所述用户进行语音回复。

17、本申请还提供一种交互方式，在机器人与用户互动的过程中赋予了机器人更多的情绪，以增强机器人的生命感。通过获取与回复内容相匹配的情绪信息，例如与回复内容相匹配的语言情绪、肢体动作、微动作等，并基于该情绪信息对用户进行语音回复，从而提升交互体验。

18、在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的语言情绪，所述根据所述回复内容和所述情绪信息，对所述用户进行语音回复，包括：按照与所述回复内容相匹配的语言情绪，以所述回复内容对所述用户进行语音回复。该语言情绪是指机器人的整段回答的情绪，机器人可以带着情绪向用户输出语音。

19、在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的肢体动作，所述根据所述回复内容和所述情绪信息对所述用户进行语音回复，包括：在以所述回复内容对所述用户进行语音回复的过程中停顿的时刻，执行所述肢体动作。

20、例如，所述执行所述肢体动作，包括：调用与所述回复内容相匹配的表情动画；执行与所述表情动画中呈现的所述肢体动作。

21本文档来自技高网...

【技术保护点】

1.一种人机交互的方法，其特征在于，用于机器人与用户之间的互动，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述检测所述用户是否朝向所述机器人包括：

3.根据权利要求2所述的方法，其特征在于，所述检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述检测所述用户的脸部是否朝向所述机器人，包括：

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述检测所述用户的眼神是否朝向所述机器人，包括：

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述根据所述语音信息确定所述用户的语音是否针对所述机器人，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述在所述用户朝向所述机器人的情况下，获取所述用户的语音信息，包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的语

10.根据权利要求8或9所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的肢体动作，所述根据所述回复内容和所述情绪信息对所述用户进行语音回复，包括：

11.根据权利要求10所述的方法，其特征在于，所述执行所述肢体动作，包括：

12.根据权利要求8至11中任一项所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的微动作，所述根据所述回复内容和所述情绪信息，对所述用户进行语音回复，包括：

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述获取所述用户的性格参数，包括：

15.根据权利要求14所述的方法，其特征在于，所述根据所述性格参数，确定用于与所述用户进行互动的互动策略，包括：

16.一种人机交互的装置，其特征在于，用于机器人与用户之间的互动，所述装置包括：

17.根据权利要求16所述的装置，其特征在于，所述检测模块具体用于，

18.根据权利要求17所述的装置，其特征在于，所述检测模块具体用于，

19.根据权利要求17或18所述的装置，其特征在于，所述检测模块具体用于，

20.根据权利要求17至19中任一项所述的装置，其特征在于，所述检测模块具体用于，

21.根据权利要求17至20中任一项所述的装置，其特征在于，所述检测模块具体用于，

22.根据权利要求16至21中任一项所述的装置，其特征在于，所述检测模块具体用于，

23.根据权利要求16至22中任一项所述的装置，其特征在于，所述处理模块还用于，

24.根据权利要求16至23中任一项所述的装置，其特征在于，所述处理模块还用于，

25.一种人机交互的设备，其特征在于，包括处理器，所述处理器用于执行存储器中存储的指令，以使所述设备执行根据权利要求1至15中任一项所述的人机交互的方法。

26.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在人机交互的设备上运行时，使得所述设备执行根据权利要求1至15中任一项所述的人机交互的方法。

...

【技术特征摘要】

1.一种人机交互的方法，其特征在于，用于机器人与用户之间的互动，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述检测所述用户是否朝向所述机器人包括：

3.根据权利要求2所述的方法，其特征在于，所述检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述检测所述用户的脸部是否朝向所述机器人，包括：

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述检测所述用户的眼神是否朝向所述机器人，包括：

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述根据所述语音信息确定所述用户的语音是否针对所述机器人，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述在所述用户朝向所述机器人的情况下，获取所述用户的语音信息，包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的语言情绪，所述根据所述回复内容和所述情绪信息，对所述用户进行语音回复，包括：

11.根据权利要求10所述的方法，其特征在于，所述执行所述肢体动作，包括：

12.根据权利要求8至11中任一项所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的微动作，所述根据所述回复内容和所述情绪信息，对所述用户进...

【专利技术属性】
技术研发人员：程楠，杨健勃，金德昌，拱伟，
申请(专利权)人：北京可以科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人