人机交互的方法、装置和设备制造方法及图纸

技术编号：41207067 阅读：3 留言：0更新日期：2024-05-07 22:33

本申请提供一种人机交互的方法、装置和设备，所述方法用于机器人与用户之间的互动，包括：基于预设的VAD间隔，接收所述用户的语音分段；将当前时刻接收到的语音分段合并至第一语音信息中，得到第二语音信息，其中，所述第一语音信息是由所述当前时刻之前接收到的语音分段合并形成的语音信息；根据所述第二语音信息的语意的完整性，确定是否针对所述第二语音信息对所述用户进行语音回复。相比于基于固定的VAD间隔的判停，能够减少对用户语音的打断，提升了交互体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，并且更具体地，涉及一种人机交互的方法、装置和设备。

技术介绍

1、随着人工智能技术的不断地发展，机器人的种类越来越多。其中，家庭机器人是比较常见的一种机器人，其可以通过与用户之间的交互，来增加用户的幸福感，减轻用户的压力。例如，在家庭生活中，父母不能陪伴儿童时，儿童可以与机器人进行交互，比如进行对话、娱乐或者学习等。为此，如何提升用户与机器人之间的交互体验，成为需要解决的问题。

技术实现思路

1、本申请实施例提供一种人机交互的方法、装置和设备，能够提升用户与机器人之间的交互体验。

2、第一方面，提供一种人机交互的方法，用于机器人与用户之间的互动，所述方法包括：基于预设的语音活动检测vad间隔，接收所述用户的语音分段；将当前时刻接收到的语音分段合并至第一语音信息中，得到第二语音信息，其中，所述第一语音信息是由所述当前时刻之前接收到的语音分段合并形成的语音信息；根据所述第二语音信息的语意的完整性，确定是否针对所述第二语音信息对所述用户进行语音回复。

3、本申请基于预设的vad间隔接收用户的语音分段，并在接收过程中不断将新的语音分段合并至前面的语音信息中，并根据合并后的语音信息的语意完整性，确定是否判停用户语音并进行回复。相比于基于固定的vad间隔的判停，能够减少对用户语音的打断，提升了交互体验。

4、在一些可能的实现方式中，所述vad间隔为连续两个语音分段之间的时间间隔的最小值。

5、例如，所述vad间隔可以设置为小于或者等于600毫秒。

6、又例如，所述vad间隔可以设置为小于或者等于200毫秒。

7、在该实现方式中，在采用较小的vad间隔对用户语音进行分割时，通过分小段处理用户语音，能够降低延时，减少用户等待答复的时间，进一步提高了交互体验。

8、在一些可能的实现方式中，所述根据所述第二语音信息的语意的完整性，确定是否针对所述第二语音信息，对所述用户进行语音回复，包括：在所述第二语音信息的语意为完整的情况下，针对所述第二语音信息对所述用户进行语音回复；在所述第二语音信息的语意为不完整的情况下，将所述当前时刻的下一时刻接收到的语音分段合并至所述第二语音信息中，得到第三语音信息，并根据所述第三语音信息的语意的完整性，确定是否针对所述第三语音信息对所述用户进行语音回复。

9、在该实现方式中，在将采集到的语音分段合并至此前的第一语音信息中后，如果得到的新的第二语音信息的语意是完整的，则认为用户的话说完了，从而可以对用户进行回复；如果得到的第二语音信息的语意仍不完整，则继续采集新的语音分段并合并至第二语音信息中，得到第三语音信息，并根据第三语音信息的完整性确定是否对用户进行回复。

10、在一些可能的实现方式中，所述针对所述第二语音信息对所述用户进行语音回复，包括：基于asr技术，将所述第二语音信息转换为文本信息，并向llm输入所述文本信息，所述llm用于根据所述文本信息生成文本回复内容；接收所述llm输出的所述文本回复内容；基于tts技术，将所述文本回复内容转换为语音回复内容；根据所述语音回复内容，对所述用户进行语音回复。

11、在该实现方式中，可以利用大语言模型获取回复内容，具体地，可以基于asr技术将第二语音信息转换为文本信息并输入llm中，并从llm获取文本回复内容，基于tts技术将llm返回的文本回复内容转换为语音回复内容后对用户进行语音回复。通过这个过程，便能够流畅、自然地与用户对话。

12、在一些可能的实现方式中，所述llm还用于调用其外部的功能模块，并根据所述功能模块提供的信息生成所述文本回复内容。这样，便能够使机器人于用户之间的互动内容更加丰富。

13、所述功能模块例如包括以下中的至少一种：用于存储聊天记录的数据库、所述机器人的参数库、以及其他具有特定功能的功能模块。

14、在一些可能的实现方式中，所述方法还包括：基于自然语言处理nlp技术，确定所述第二语音信息的语意的完整性。利用nlp技术可以高效且准确地帮助计算机理解人类语言，通过分析第二语音信息对应的文本的结构、语法和语意等，确定其完整性。

15、第二方面，提供一种人机交互的装置，用于机器人与用户之间的互动，所述装置包括：检测模块，用于基于预设的语音活动检测vad间隔，接收所述用户的语音分段；处理模块，用于将当前时刻接收到的语音分段合并至第一语音信息中，得到第二语音信息，其中，所述第一语音信息是由所述当前时刻之前接收到的语音分段合并形成的语音信息；所述处理模块还用于，根据所述第二语音信息的语意的完整性，确定是否针对所述第二语音信息对所述用户进行语音回复。

16、在一些可能的实现方式中，所述vad间隔为连续两个语音分段之间的时间间隔的最小值。

17、在一些可能的实现方式中，所述vad间隔小于或者等于600毫秒，或者所述vad间隔小于或者等于200毫秒。

18、在一些可能的实现方式中，所述处理模块具体用于，在所述第二语音信息的语意为完整的情况下，针对所述第二语音信息对所述用户进行语音回复；在所述第二语音信息的语意为不完整的情况下，将所述当前时刻的下一时刻接收到的语音分段合并至所述第二语音信息中，得到第三语音信息，并根据所述第三语音信息的语意的完整性，确定是否针对所述第三语音信息对所述用户进行语音回复。

19、在一些可能的实现方式中，所述处理模块具体用于，基于asr技术，将所述第二语音信息转换为文本信息，并向llm输入所述文本信息，所述llm用于根据所述文本信息生成文本回复内容；接收所述llm输出的所述文本回复内容；基于tts技术，将所述文本回复内容转换为语音回复内容；根据所述语音回复内容，对所述用户进行语音回复。

20、在一些可能的实现方式中，所述llm还用于调用其外部的功能模块，并根据所述功能模块提供的信息生成所述文本回复内容。

21、所述功能模块例如包括以下中的至少一种：用于存储聊天记录的数据库、所述机器人的参数库、以及其他具有特定功能的功能模块。

22、在一些可能的实现方式中，所述处理模块还用于，基于自然语言处理nlp技术，确定所述第二语音信息的语意的完整性。

23、第三方面，提供一种人机交互的设备，包括处理器，所述处理器用于执行存储器中存储的指令，以使所述设备执行上述第一方面或第一方面的任一可能的实现方式中所述的人机交互的方法。

24、第四方面，提供一种计算机可读存储介质，包括计算机指令，当所述计算机指令在人机交互的设备上运行时，使得所述设备执行上述第一方面或第一方面的任一可能的实现方式中所述的人机交互的方法。

本文档来自技高网...

【技术保护点】

1.一种人机交互的方法，其特征在于，用于机器人与用户之间的互动，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述VAD间隔为连续两个语音分段之间的时间间隔的最小值。

3.根据权利要求1或2所述的方法，其特征在于，所述VAD间隔小于或者等于600毫秒。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述第二语音信息的语意的完整性，确定是否针对所述第二语音信息，对所述用户进行语音回复，包括：

5.根据权利要求4所述的方法，其特征在于，所述针对所述第二语音信息对所述用户进行语音回复，包括：

6.根据权利要求5所述的方法，其特征在于，所述LLM还用于调用其外部的功能模块，并根据所述功能模块提供的信息生成所述文本回复内容。

7.根据权利要求6所述的方法，其特征在于，所述功能模块包括用于存储聊天记录的数据库和/或所述机器人的参数库。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

9.一种人机交互的装置，其特征在于，用于机器人与用户之间的互动，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述VAD间隔为连续两个语音分段之间的时间间隔的最小值。

11.根据权利要求9或10所述的装置，其特征在于，所述VAD间隔小于或者等于600毫秒。

12.根据权利要求9至11中任一项所述的装置，其特征在于，所述处理模块具体用于，

13.根据权利要求12所述的装置，其特征在于，所述处理模块具体用于，

14.根据权利要求13所述的装置，其特征在于，所述LLM还用于调用其外部的功能模块，并根据所述功能模块提供的信息生成所述文本回复内容。

15.根据权利要求14所述的装置，其特征在于，所述外部的功能模块包括用于存储聊天记录的数据库和/或所述机器人的参数库。

16.根据权利要求9至15中任一项所述的装置，其特征在于，所述处理模块还用于，

17.一种人机交互的设备，其特征在于，包括处理器，所述处理器用于执行存储器中存储的指令，以使所述设备执行根据权利要求1至8中任一项所述的人机交互的方法。

18.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在人机交互的设备上运行时，使得所述设备执行根据权利要求1至8中任一项所述的人机交互的方法。

...

【技术特征摘要】

1.一种人机交互的方法，其特征在于，用于机器人与用户之间的互动，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述vad间隔为连续两个语音分段之间的时间间隔的最小值。

3.根据权利要求1或2所述的方法，其特征在于，所述vad间隔小于或者等于600毫秒。

5.根据权利要求4所述的方法，其特征在于，所述针对所述第二语音信息对所述用户进行语音回复，包括：

6.根据权利要求5所述的方法，其特征在于，所述llm还用于调用其外部的功能模块，并根据所述功能模块提供的信息生成所述文本回复内容。

7.根据权利要求6所述的方法，其特征在于，所述功能模块包括用于存储聊天记录的数据库和/或所述机器人的参数库。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

9.一种人机交互的装置，其特征在于，用于机器人与用户之间的互动，所述装置包括：

10.根据权利要求9所述的装置，其特...

【专利技术属性】
技术研发人员：张景龙，杨健勃，曹临杰，拱伟，
申请(专利权)人：北京可以科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人