语音交互方法、装置、设备和存储介质制造方法及图纸

技术编号：41305112 阅读：5 留言：0更新日期：2024-05-13 14:50

本发明专利技术提供一种语音交互方法、装置、设备和存储介质，涉及语音处理技术领域，该方法包括：在唤醒模式下，在接收到第一用户输入的包括预设唤醒词的语音信息的情况下，提取采集的第一语音信息的声纹信息；输出第一提示信息，并将电子设备的工作模式由唤醒模式切换为免唤醒模式；接收基于第一提示信息输入的第二语音信息；在第一语音信息的声纹信息和第二语音信息的声纹信息匹配的情况下，对第二语音信息进行语义理解，得到第一语义理解结果；基于第一语义理解结果，输出第二语音信息对应的响应信息。本发明专利技术提供的语音交互方法、装置、设备和存储介质不仅可以提高电子设备的响应效率，而且可以降低电子设备输出无效响应的概率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理，尤其涉及一种语音交互方法、装置、设备和存储介质。

技术介绍

1、随着电子设备(如手机、平板、可穿戴智能设备等)的普及，智慧语音的交互功能已经成为人们日常生活中的常用功能。当前，比较常见的智慧语音交互方式包括免唤醒模式和采用固定唤醒词进行唤醒的唤醒模式。

2、其中，通过唤醒模式唤醒电子设备的方式，可以避免无效的唤醒，但是在遇到多轮问题的时候，需要多次输入唤醒词才会响应用户的指令，操作较为繁琐，使得电子设备响应的效率较低。而通过免唤醒模式唤醒电子设备的方式，由于不需要输入唤醒词，因此会有较多的无效音频，导致电子设备会输出较多无效的响应信息。

3、因此，如何兼顾电子设备的响应效率和输出较多无效的响应信息，是目前亟待解决的技术问题。

技术实现思路

1、本专利技术提供一种语音交互方法、装置、设备和存储介质，用以解决现有技术中无法兼顾电子设备的响应效率和输出较多无效的响应信息的缺陷，实现了不仅可以提高电子设备的响应效率，而且可以降低电子设备输出无效响应的概率的目的。

2、本专利技术提供一种语音交互方法，包括：

3、在唤醒模式下，在接收到第一用户输入的包括预设唤醒词的语音信息的情况下，提取采集的第一语音信息的声纹信息；

4、输出第一提示信息，并将电子设备的工作模式由所述唤醒模式切换为免唤醒模式；

5、接收基于所述第一提示信息输入的第二语音信息；

6、在所述第一语音信息的声纹信息和所述第二语

7、基于所述第一语义理解结果，输出所述第二语音信息对应的响应信息。

8、根据本专利技术提供的一种语音交互方法，所述方法还包括：

9、在接收到所述第一用户输入的包括预设唤醒词的语音信息的情况下，采集所述第一用户的第一图像；

10、在所述第一语音信息的声纹信息和所述第二语音信息的声纹信息匹配的情况下，对所述第二语音信息进行语义理解，得到第一语义理解结果，包括：

11、获取输入所述第二语音信息的第二用户的第二图像；

12、在所述第一语音信息的声纹信息和所述第二语音信息的声纹信息匹配、且基于所述第一图像和所述第二图像，确定所述第一用户和所述第二用户的相似度大于预设相似度的情况下，对所述第二语音信息进行语义理解，得到所述第一语义理解结果。

13、根据本专利技术提供的一种语音交互方法，所述方法还包括：

14、在基于所述第一语义理解结果，未查找到所述第二语音信息对应的响应信息的情况下，输出第二提示信息，并控制所述电子设备的工作模式保持所述免唤醒模式；

15、接收第三语音信息；

16、在所述第三语音信息和所述第二提示信息相关、且在所述第一语音信息的声纹信息和所述第三语音信息的声纹信息匹配的情况下，对所述第三语音信息进行语义理解，得到第二语义理解结果；

17、基于所述第一语义理解结果和所述第二语义理解结果，输出所述第三语音信息对应的响应信息。

18、根据本专利技术提供的一种语音交互方法，所述方法还包括：

19、在所述第三语音信息和所述第二提示信息不相关的情况下，将所述电子设备的工作模式由所述免唤醒模式切换为所述唤醒模式，并重新判断所述第三语音信息中是否包括所述预设唤醒词。

20、根据本专利技术提供的一种语音交互方法，所述方法还包括：

21、在所述第一语音信息的声纹信息和所述第二语音信息的声纹信息不匹配的情况下，确定所述第一用户和输入所述第二语音信息的第二用户是否为预先绑定的用户；

22、在所述第一用户和所述第二用户为预先绑定的用户的情况下，对所述第二语音信息进行语义理解，得到所述第一语义理解结果。

23、根据本专利技术提供的一种语音交互方法，所述基于所述第一语义理解结果，输出所述第二语音信息对应的响应信息之后，所述方法还包括：

24、将所述电子设备的工作模式由所述免唤醒模式切换为所述唤醒模式。

25、根据本专利技术提供的一种语音交互方法，所述方法还包括：

26、在预设时长内未接收到所述第二语音信息的情况下，将所述电子设备的工作模式由所述免唤醒模式切换为所述唤醒模式。

27、本专利技术还提供一种语音交互装置，包括：

28、提取模块，用于在唤醒模式下，在接收到第一用户输入的包括预设唤醒词的语音信息的情况下，提取采集的第一语音信息的声纹信息；

29、输出模块，用于输出第一提示信息；

30、切换模块，用于将电子设备的工作模式由所述唤醒模式切换为免唤醒模式；

31、接收模块，用于接收基于所述第一提示信息输入的第二语音信息；

32、处理模块，用于在所述第一语音信息的声纹信息和所述第二语音信息的声纹信息匹配的情况下，对所述第二语音信息进行语义理解，得到第一语义理解结果；

33、所述输出模块，还用于基于所述第一语义理解结果，输出所述第二语音信息对应的响应信息。

34、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音交互方法。

35、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音交互方法。

36、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音交互方法。

37、本专利技术提供的语音交互方法、装置、设备和存储介质，在唤醒模式下，在接收到第一用户输入的包括预设唤醒词的语音信息的情况下，提取采集的第一语音信息的声纹信息，输出第一提示信息后，可以将电子设备的工作模式由唤醒模式切换为免唤醒模式，这样在后续进行多轮对话时，可以避免频繁的输入唤醒词，提高了电子设备的响应效率。另外，通过将后续接收到的第二语音信息的声纹信息和第一语音信息的声纹信息进行匹配，并在匹配成功的情况下，对第二语音信息进行语义理解，得到第一语义理解结果，基于第一语义理解结果，输出第二语音信息对应的响应信息。通过声纹信息的比对，可以避免在免唤醒模式下，对接收到的其他用户的无效音频进行识别并响应的情况，可以降低电子设备输出无效响应的概率。

本文档来自技高网...

【技术保护点】

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的语音交互方法，其特征在于，所述方法还包括：

5.根据权利要求1-3任一项所述的语音交互方法，其特征在于，所述方法还包括：

6.根据权利要求1-3任一项所述的语音交互方法，其特征在于，所述基于所述第一语义理解结果，输出所述第二语音信息对应的响应信息之后，所述方法还包括：

7.根据权利要求1-3任一项所述的语音交互方法，其特征在于，所述方法还包括：

8.一种语音交互装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音交互方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音交互方法。

...

【技术特征摘要】

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的语音交互方法，其特征在于，所述方法还包括：

5.根据权利要求1-3任一项所述的语音交互方法，其特征在于，所述方法还包括：

6.根据权利要求1-3任一项所述的语音交互方法，其特征在于，所述基于所述第一语义理解结果，输出所述第二语音信息对应的...

【专利技术属性】
技术研发人员：高顺，孙连鹏，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人