服务器、语音唤醒方法及介质技术

技术编号：40876452 阅读：2 留言：0更新日期：2024-04-08 16:45

本公开涉及一种服务器、语音唤醒方法及介质，包括：获取待检测语音流，待检测语音流是根据多个关键词组成的，将待检测语音流输入至唤醒词概率预测模型中，获取各个关键词的概率值，唤醒词概率预测模型是基于样本训练集训练得到的，样本训练集包括：多个训练语音及训练语音对应的标签，训练语音包括：包含唤醒词的训练语音、包含非唤醒词的训练语音及包含中间词的训练语音，中间词是根据唤醒词确定的，标签包括：唤醒词对应的第一标签、非唤醒词对应的第二标签及中间词对应的第三标签；当存在概率值大于预设概率值时，确定在待检测语音流中检测到所述唤醒词，将检测结果发送给终端设备，以使终端设备进行语音唤醒，以提高确定唤醒词的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及语音识别，尤其涉及一种服务器、语音唤醒方法及介质。

技术介绍

1、目前，用户通过终端设备进行语音交互已经非常普遍，主要是利用语音助手实现用户与终端设备之间的语音交互，具体的，用户与终端设备之间进行语音交互过程中，能够根据唤醒词唤醒终端设备的语音助手，即唤醒终端设备，在确定唤醒终端设备之后，实现用户与终端设备之间的语音交互功能。

2、现有技术中，对于根据唤醒词唤醒终端设备是基于语音音频片段分类的方法实现的，即通过该方法检测用户的语音片段中是否存在唤醒词，依次确定是否进行语音唤醒。

3、然而，采用现有技术，存在唤醒词在未完全出现时，执行唤醒任务，导致误唤醒的问题，影响用户体验。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种服务器、语音唤醒方法及介质，能够通过训练好的唤醒词概率预测模型来预测待检测语音流中各个关键词如唤醒词、非唤醒词以及中间词分别对应的概率值，确定概率值大于预设概率值的关键词为唤醒词，由于唤醒词概率预测模型是根据样本训练集训练得到的，该样本训练集中包括包含唤醒词的训练语音、包含非唤醒词的训练语音、包含中间词的训练语音、唤醒词对应的第一标签、非唤醒词对应的第二标签及中间词对应的第三标签；其中，对于中间词是根据唤醒词确定的，即，利用包含中间词的训练语音以及中间词对应的第三标签增强样本训练集，以此提高唤醒词概率预测模型预测唤醒词的准确性，避免现有技术中唤醒词在未完全出现时，执行唤醒任务，导致误唤醒的问题，提升了用户的体验。

2、第一方面，本公开提供了一种服务器，该服务器包括：控制器，被配置为：

3、获取待检测语音流，所述待检测语音流是根据多个关键词组成的，所述关键词包括唤醒词、非唤醒词以及中间词中的一种或多种；

4、将所述待检测语音流输入至唤醒词概率预测模型中，获取各个所述关键词的概率值，所述唤醒词概率预测模型是基于样本训练集训练得到的，所述样本训练集包括：多个训练语音及所述训练语音对应的标签，所述训练语音包括：包含所述唤醒词的所述训练语音、包含所述非唤醒词的所述训练语音及包含所述中间词的所述训练语音，所述中间词是根据所述唤醒词确定的，所述标签包括：所述唤醒词对应的第一标签、所述非唤醒词对应的第二标签及所述中间词对应的第三标签；

5、当存在所述概率值大于预设概率值时，确定在所述待检测语音流中检测到所述唤醒词，将检测结果发送给终端设备，以使所述终端设备进行语音唤醒。

6、作为本公开实施例一种可选的实施方式，所述唤醒词概率预测模型包括语音特征提取模块和概率预测模块；

7、所述控制器，具体被配置为：

8、将所述待检测语音流输入至所述语音特征提取模块中，获取所述待检测语音流对应的语音特征矩阵；

9、将所述语音特征矩阵输入至所述概率预测模块中，获取所述待检测语音流中各个关键词的概率值。

10、作为本公开实施例一种可选的实施方式，所述控制器，具体还被配置为：

11、将所述待检测语音流进行分帧处理，得到所述待检测语音流对应的多个具有相同预设长度的待检测语音片段；

12、将多个所述待检测语音片段依次输入至所述语音特征提取模块中，确定所述待检测语音流对应的语音特征矩阵。

13、作为本公开实施例一种可选的实施方式，所述控制器，还被配置为：

14、根据初始样本训练集，构建所述样本训练集，其中，所述初始样本训练集包括：多个初始训练语音及所述初始训练语音对应的初始标签，所述初始训练语音包括：包含唤醒词的所述初始训练语音及包含非唤醒词的所述初始训练语音，所述初始标签包括：所述唤醒词对应的第一初始标签以及所述非唤醒词对应的第二初始标签；

15、将所述样本训练集输入至所述唤醒词概率预测模型中，利用所述训练语音对应的标签对所述唤醒词概率预测模型进行监督训练，根据预设多分类损失函数，调整所述唤醒词概率预测模型的权值参数，直至所述唤醒词概率预测模型收敛。

16、作为本公开实施例一种可选的实施方式，所述控制器，具体被配置为：

17、根据所述初始样本训练集，确定包含所述中间词的所述训练语音及所述中间词对应的所述第三标签；

18、基于所述初始样本训练集、包含所述中间词的所述训练语音及所述中间词对应的所述第三标签，构建所述样本训练集。

19、作为本公开实施例一种可选的实施方式，所述控制器，具体还被配置为：

20、在所述初始样本训练集中包括的多个所述初始训练语音中，确定包含所述唤醒词的所述初始训练语音；

21、根据包含所述唤醒词的所述初始训练语音，确定多个所述唤醒词；

22、根据各个所述唤醒词，确定对应的多个所述中间词及包含所述中间词的所述训练语音；

23、根据所述中间词对应的预设参数，确定所述中间词对应的所述第三标签，其中，所述第三标签为预设范围内的概率值。

24、作为本公开实施例一种可选的实施方式，所述控制器，还被配置为：

25、根据所述中间词对应的预设参数，确定所述预设多分类损失函数。

26、第二方面，本公开提供一种语音唤醒方法，包括：

27、获取待检测语音流，所述待检测语音流是根据多个关键词组成的，所述关键词包括唤醒词、非唤醒词以及中间词中的一种或多种；

28、将所述待检测语音流输入至唤醒词概率预测模型中，获取各个所述关键词的概率值，所述唤醒词概率预测模型是基于样本训练集训练得到的，所述样本训练集包括：多个训练语音及所述训练语音对应的标签，所述训练语音包括：包含所述唤醒词的所述训练语音、包含所述非唤醒词的所述训练语音及包含所述中间词的所述训练语音，所述中间词是根据所述唤醒词确定的，所述标签包括：所述唤醒词对应的第一标签、所述非唤醒词对应的第二标签及所述中间词对应的第三标签；

29、当存在所述概率值大于预设概率值时，确定在所述待检测语音流中检测到所述唤醒词，将检测结果发送给终端设备，以使所述终端设备进行语音唤醒。

30、作为本公开实施例一种可选的实施方式，所述唤醒词概率预测模型包括语音特征提取模块和概率预测模块；所述将所述待检测语音流输入至唤醒词概率预测模型中，获取各个所述关键词的概率值，包括：

31、将所述待检测语音流输入至所述语音特征提取模块中，获取所述待检测语音流对应的语音特征矩阵；

32、将所述语音特征矩阵输入至所述概率预测模块中，获取所述待检测语音流中各个关键词的概率值。

33、第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第二方面所述的语音唤醒方法。

34、本公开实施例提供的技术方案与现有技术相比具有如下优点：

35、服务器的控制器获取待检测语音流，待检测语音流是根据多个关键词组成的，关键词包括唤醒词、非唤醒词以及本文档来自技高网...

【技术保护点】

1.一种服务器，其特征在于，包括：

2.根据权利要求1所述的服务器，其特征在于，所述唤醒词概率预测模型包括语音特征提取模块和概率预测模块；

3.根据权利要求2所述的服务器，其特征在于，所述控制器，具体还被配置为：

4.根据权利要求1所述的服务器，其特征在于，所述控制器，还被配置为：

5.根据权利要求4所述的服务器，其特征在于，所述控制器，具体被配置为：

6.根据权利要求5所述的服务器，其特征在于，所述控制器，具体还被配置为：

7.根据权利要求4所述的服务器，其特征在于，所述控制器，还被配置为：

8.一种语音唤醒方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述唤醒词概率预测模型包括语音特征提取模块和概率预测模块；所述将所述待检测语音流输入至唤醒词概率预测模型中，获取各个所述关键词的概率值，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求8-9中任一项所述的语音唤醒方法的步骤。

【技术特征摘要】

1.一种服务器，其特征在于，包括：

2.根据权利要求1所述的服务器，其特征在于，所述唤醒词概率预测模型包括语音特征提取模块和概率预测模块；

3.根据权利要求2所述的服务器，其特征在于，所述控制器，具体还被配置为：

4.根据权利要求1所述的服务器，其特征在于，所述控制器，还被配置为：

5.根据权利要求4所述的服务器，其特征在于，所述控制器，具体被配置为：

6.根据权利要求5所述的服务器，其特征在于，所述控制器，具体还被配置为：...

【专利技术属性】
技术研发人员：方依云，李俊彦，
申请(专利权)人：海信电子科技武汉有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人