语音意图识别方法及其模型训练方法、设备、存储介质技术

技术编号：41127672 阅读：2 留言：0更新日期：2024-04-30 17:55

本申请公开了语音意图识别方法及其模型训练方法、设备、存储介质，该识别方法包括：提取待识别语音数据的语义特征；以及获取待识别语音数据的语音边界信息，语音边界信息用于区分待识别语音数据中的有效语音部分和无效语音部分；基于语音边界信息，对语义特征进行特征抽取，得到意图特征，语音边界信息用于指示从有效语音部分对应的语义特征中抽取得到意图特征；基于意图特征确定待识别语音数据的意图。上述方案，能够提升语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音识别领域，特别是涉及一种语音意图识别方法及其模型训练方法、设备、存储介质。

技术介绍

1、现有的语音意图识别技术中，往往只能识别既定的、预先设定好的意图和命令词，对于用户自由表达的语音指令则难以进行有效识别和处理。并且现有的语音意图识别技术在语音质量较差或者信息分布发生变化时，其语音识别率会有明显的降低。尤其对包含子命令词的其他说法时，常常会出现错误识别的情况，导致设备将进行用户意图之外的操作，非常影响使用体验。

技术实现思路

1、本申请至少提供语音意图识别方法及其模型训练方法、设备、存储介质，能够提升语音识别的准确率。

2、本申请第一方面提供了一种语音意图识别方法，该方法包括：提取待识别语音数据的语义特征；以及获取待识别语音数据的语音边界信息，语音边界信息用于区分待识别语音数据中的有效语音部分和无效语音部分；基于语音边界信息，对语义特征进行特征抽取，得到意图特征，语音边界信息用于指示从有效语音部分对应的语义特征中抽取得到意图特征；基于意图特征确定待识别语音数据的意图。

3、其中，意图特征包括第一意图特征，基于语音边界信息，对语义特征进行特征抽取，得到意图特征，包括：利用语音边界信息，查找有效语音部分对应的语义特征作为有效语义特征；对有效语义特征进行第一特征抽取，得到第一意图特征。

4、其中，意图特征包括第二意图特征，基于语音边界信息，对语义特征进行特征抽取，得到意图特征，还包括：对待识别语音数据的语义特征进行第二特征抽取，得到第二

5、其中，对有效语义特征进行第一特征抽取，得到第一意图特征，包括：对有效语义特征进行池化处理，得到第一意图特征；对待识别语音数据的语义特征进行第二特征抽取，得到第二意图特征，包括：对待识别语音数据的语义特征进行自注意力处理，得到第二意图特征。

6、其中，对有效语义特征进行池化处理，得到第一意图特征，包括：选取特征值最大的有效语义特征作为第一意图特征；和/或，对待识别语音数据的语义特征进行自注意力处理，得到第二意图特征，包括：选取权重系数满足预设权重条件的语义特征作为第二意图特征，其中，权重系数表征语义特征所对应的语音数据在待识别语音数据中的重要程度。

7、其中，待识别语音数据的语义特征包括待识别语音数据中的各语音帧对应的语义特征，语音边界信息用于表示各语音帧是否为有效语音信息，有效语义特征为属于有效语音信息的语音帧对应的语义特征。

8、其中，在提取待识别语音数据的语义特征之前，还包括：对待识别语音数据进行分帧处理，得到若干语音帧；提取各语音帧的声学特征；提取待识别语音数据的语义特征，包括：对各语音帧的声学特征进行语义提取，得到各语音帧的语义特征；获取待识别语音数据的语音边界信息，包括：对各语音帧的声学特征进行检测，得到语音边界信息。

9、其中，语音边界信息是对待识别语音数据的各语音帧进行语音激活检测得到的；和/或，语义提取是由特征处理网络实现的，语义特征为包含语义信息的隐层特征。

10、本申请第二方面提供了一种意图识别模型的训练方法，包括：利用意图识别模型的特征处理模块提取样本语音数据的样本语义特征；以及利用意图识别模型的检测模块获取样本语音数据的样本语音边界信息，样本语音边界信息用于区分样本语音数据中的有效语音部分和无效语音部分；利用意图识别模型的特征抽取模块基于样本语音边界信息，对有效语音部分对应的样本语义特征进行特征抽取，得到样本意图特征；利用意图识别模型的第一分类模块基于样本意图特征确定样本语音数据的预测意图；利用预测意图以及样本语音数据的标注意图之间的第一差异，调整意图识别模型中各模块的参数。

11、其中，方法还包括：利用掩码语言模型的掩码模块对样本文本进行掩码处理，以得到掩码文本结果；利用特征处理模块提取经掩码文本结果的文本特征；利用掩码语言模型的文本预测模块基于文本特征对掩码文本结果进行还原，得到第一预测文本；利用第一预测文本与样本文本之间的第二差异，调整掩码语言模型中的各模块以及意图识别模型的特征处理模块的参数。

12、其中，在利用掩码语言模型的文本预测模块基于文本特征对掩码文本结果进行还原，得到第一预测文本的步骤之前，还包括：利用第二分类模块对特征处理模块的输出特征进行判别；响应于输出特征判别为文本特征，将输出特征输出至文本预测模块；响应于输出特征判别为语音数据的样本语义特征，将输出特征输出至特征处理模块的解码器，以利用解码器对样本语义特征进行识别，得到第二预测文本，其中，样本语义特征是由意图识别模型的特征提取模块提取得到样本语音数据的声学特征，并由特征处理模块对声学特征进行语义提取得到的；利用第一预测文本与样本文本之间的第二差异，调整掩码语言模型中的各模块以及意图识别模型的特征处理模块的参数，包括：利用第二差异以及第二预测文本与样本语音数据对应的标注文本之间的第三差异，进行参数调整，其中，第二差异用于指示掩码语言模型的各模块、意图识别模型的特征处理模块以及第二分类模块的参数调整，第三差异用于指示第二分类模块、以及意图识别模型的特征提取模块、特征处理模块的参数调整。

13、其中，样本语音边界信息是检测模块对样本语音数据的声学特征进行检测得到，声学特征是由意图识别模型的特征提取模块对样本语音数据提取得到；方法还包括：利用意图识别模型的检测模块对声学特征进行检测处理，得到样本语音数据的至少一种检测信息，至少有一个检测信息包括预测音素状态和预测字边界中的至少一种；利用至少一种检测信息以及对应的标注信息之间的第四差异，调整意图识别模型的特征提取模块和检测模块的参数。

14、其中，样本意图特征包括第一样本意图特征，基于样本语音边界信息，对有效语音部分对应的样本语义特征进行特征抽取，得到样本意图特征，包括：利用样本语音边界信息，查找有效语音部分对应的样本语义特征作为有效样本语义特征；对有效样本语义特征进行第一特征抽取，得到第一样本意图特征。

15、本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的语音意图识别方法，或实现上述第二方面中的意图识别模型的训练方法。

16、本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的语音意图识别方法，或实现上述第二方面中的意图识别模型的训练方法。

17、上述方案，对待识别语音数据进行特征提取，得到语义特征，同时获取待识别语音数据中的语音边界信息，利用语音边界信息以区分待识别语音数据中的有效语音部分和无效语音部分，并根据语音边界信息中所指示的有效语音部分对应的语义特征进行特征抽取，得到意图特征，利用意图特征确定待识别语音数据的意图，使得集中关注有效语音部分，而非本文档来自技高网...

【技术保护点】

1.一种语音意图识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述意图特征包括第一意图特征，所述基于所述语音边界信息，对所述语义特征进行特征抽取，得到意图特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述意图特征包括第二意图特征，所述基于所述语音边界信息，对所述语义特征进行特征抽取，得到意图特征，还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述有效语义特征进行第一特征抽取，得到第一意图特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述有效语义特征进行池化处理，得到第一意图特征，包括：

6.根据权利要求2所述的方法，其特征在于，所述待识别语音数据的语义特征包括所述待识别语音数据中的各语音帧对应的语义特征，所述语音边界信息用于表示各所述语音帧是否为有效语音信息，所述有效语义特征为属于所述有效语音信息的所述语音帧对应的所述语义特征。

7.根据权利要求6所述的方法，其特征在于，在所述提取待识别语音数据的语义特征之前，还包括：

8.根据权利要

9.一种意图识别模型的训练方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，在所述利用所述掩码语言模型的文本预测模块基于所述文本特征对所述掩码文本结果进行还原，得到第一预测文本的步骤之前，还包括：

12.根据权利要求9所述的方法，其特征在于，所述样本语音边界信息是所述检测模块对所述样本语音数据的声学特征进行检测得到，所述声学特征是由所述意图识别模型的特征提取模块对所述样本语音数据提取得到；

13.根据权利要求9所述的方法，其特征在于，所述样本意图特征包括第一样本意图特征，所述基于所述样本语音边界信息，对所述有效语音部分对应的样本语义特征进行特征抽取，得到样本意图特征，包括：

14.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至8任一项所述的语音意图识别方法，和/或实现权利要求9至13任一项所述的意图识别模型的训练方法。

15.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至8任一项所述的语音意图识别方法，和/或实现权利要求9至13任一项所述的意图识别模型的训练方法。

...

【技术特征摘要】

1.一种语音意图识别方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述有效语义特征进行第一特征抽取，得到第一意图特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述有效语义特征进行池化处理，得到第一意图特征，包括：

7.根据权利要求6所述的方法，其特征在于，在所述提取待识别语音数据的语义特征之前，还包括：

8.根据权利要求7所述的方法，其特征在于，所述语音边界信息是对所述待识别语音数据的各语音帧进行语音激活检测得到的；

9.一种意图识别模型的训练...

【专利技术属性】
技术研发人员：熊世富，张佳乐，申凯，高建清，刘聪，潘嘉，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人