口语理解方法、装置、电子设备、存储介质及产品制造方法及图纸

技术编号：43842029 阅读：15 留言：0更新日期：2024-12-31 18:37

本发明专利技术提供一种口语理解方法、装置、电子设备、存储介质及产品，包括：获取待理解的语音信号；将所述语音信号输入训练好的口语理解模型，得到语音信号的语义信息；口语理解模型，包括：自动语音识别编码器，用于将语音信号的声学特征转换为声学表示；自动语音识别解码器，用于对声学表示进行文本转写，得到语音转写文本表示；融合模块，用于对声学表示和语音转写文本表示进行融合，得到联合表示；口语理解解码器，用于对联合表示进行语义预测，得到语义表示；输出层，用于基于语义表示，得到语音信号的语义信息，从而通过端到端的口语理解模型，可以直接从语音输入预测语义输出，减少错误传播问题，提高模型输出的语音信号的语义信息的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种口语理解方法、装置、电子设备、存储介质及产品。

技术介绍

1、口语理解（spoken language understanding，slu）是指从用户的语音指令中提取语义信息，如领域、意图和实体名称。目前的slu系统通常采用级联方法，即先通过自动语音识别（automatic speech recognition，asr）系统将语音转换为文本，再通过自然语言理解（natural language understanding，nlu）系统提取文本的语义信息。

2、然而，这种方法存在asr错误的累积问题和语音中的声学信息被忽略的问题，即asr阶段的转换错误会被传递到nlu阶段，从而降低整个系统的总体性能，以及asr阶段通常只关注语音到文本的转换，可能会丢失对nlu有用的声学特征，如语调、强度等，这些特征可能对理解用户的情感态度或讲话意图非常重要，从而导致口语理解结果的准确率大大降低。

技术实现思路

1、本专利技术提供一种口语理解方法、装置、电子设备、存储介质及产品，用以解决现有技术中asr错误的累积和语音中的声学信息被忽略的缺陷，实现口语语义理解结果的准确输出。

2、本专利技术提供一种口语理解方法，包括：

3、获取待理解的语音信号；

4、将所述语音信号输入训练好的口语理解模型，得到所述语音信号的语义信息；其中，所述口语理解模型，包括：自动语音识别编码器，用于将所述语音信号的声学特征转换为声学表示；自动语音

5、根据本专利技术提供的一种口语理解方法，所述融合模块，包括：

6、第一交叉注意力层，用于对所述声学表示和所述语音转写文本表示进行交叉注意力处理，得到第一联合表示；

7、第一前馈层，用于对所述第一联合表示进行线性处理，得到第二联合表示；

8、第一适配器层，用于对所述第二联合表示进行调整处理，得到联合表示。

9、根据本专利技术提供的一种口语理解方法，所述口语理解解码器，包括：

10、自注意力层，用于对口语理解解码器输出的上一语义词符进行自注意力处理，得到上一语义表示；

11、第二交叉注意力层，用于对所述上一语义表示和所述联合表示进行交叉注意力处理，得到第一语义表示；

12、第二前馈层，用于对所述第一语义表示进行线性处理，得到第二语义表示；

13、第二适配器层，用于对所述第二语义表示进行调整处理，得到语义表示。

14、根据本专利技术提供的一种口语理解方法，所述口语理解模型通过以下方式训练得到：

15、获取样本语音信号；

16、将所述样本语音信号输入待训练口语理解模型，得到所述样本语音信号的训练语义信息；其中，所述待训练口语理解模型，包括：自动语音识别编码器，用于将所述样本语音信号的声学特征转换为训练声学表示；自动语音识别解码器，用于对所述训练声学表示进行文本转写，得到训练语音转写文本表示；融合模块，用于对所述训练声学表示和所述训练语音转写文本表示进行特征融合，得到训练联合表示；口语理解解码器，用于对所述训练联合表示进行语义预测，得到训练语义表示；输出层，用于基于所述训练语义表示，得到所述样本语音信号的训练语义信息；

17、根据所述训练语义信息、所述训练语音转写文本表示和调节参数，计算整体多任务学习损失；

18、根据所述整体多任务学习损失调整模型参数，得到训练好的口语理解模型。

19、根据本专利技术提供的一种口语理解方法，所述待训练口语理解模型中的融合模块，包括：

20、第一交叉注意力层，用于对所述训练声学表示和所述训练语音转写文本表示进行交叉注意力处理，得到第一训练联合表示；

21、第一dropout层，用于对融合模块中的神经网络单元进行随机丢弃，得到保留的神经网络单元对所述第一训练联合表示进行处理后输出的第二训练联合表示；

22、第一前馈层，用于对所述第二训练联合表示进行线性处理，得到第三训练联合表示；

23、第一适配器层，用于对所述第三训练联合表示进行调整处理，得到训练联合表示。

24、根据本专利技术提供的一种口语理解方法，所述待训练口语理解模型中的口语理解解码器，包括：

25、自注意力层，用于对口语理解解码器输出的上一训练语义词符进行自注意力处理，得到上一训练语义表示；

26、第二交叉注意力层，用于对所述上一训练语义表示和所述训练联合表示进行交叉注意力处理，得到第一训练语义表示；

27、第二dropout层，用于对口语理解解码器中的神经网络单元进行随机丢弃，得到保留的神经网络单元对所述第一训练语义进行处理后输出的第二训练语义表示；

28、第二前馈层，用于对所述第二训练语义表示进行线性处理，得到第三训练语义表示；

29、第二适配器层，用于对所述第三训练语义表示进行调整处理，得到训练语义表示。

30、根据本专利技术提供的一种口语理解方法，所述适配器层具体用于：

31、基于前馈层输出结果、降维线性映射矩阵和降维偏差项，得到降维特征表示；

32、基于所述前馈层输出结果、通过激活函数对所述降维特征表示进行非线性处理得到的特征、升维线性映射矩阵和升维偏差项，得到适配器层的输出结果。

33、本专利技术还提供一种口语理解装置，包括：

34、语音信号获取模块，用于获取待理解的语音信号；

35、语义信息输出模块，用于将所述语音信号输入训练好的口语理解模型，得到所述语音信号的语义信息；其中，所述口语理解模型，包括：自动语音识别编码器，用于将所述语音信号的声学特征转换为声学表示；自动语音识别解码器，用于对所述声学表示进行文本转写，得到语音转写文本表示；融合模块，用于对所述声学表示和所述语音转写文本表示进行融合，得到联合表示；口语理解解码器，用于对所述联合表示进行语义预测，得到语义表示；输出层，用于基于所述语义表示，得到所述语音信号的语义信息。

36、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述口语理解方法。

37、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述口语理解方法。

38、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述口语理解方法。

39、本专利技术提供的口语理解方法、装置、电子设备、存储介质及产品，在获取待理解本文档来自技高网...

【技术保护点】

1.一种口语理解方法，其特征在于，包括：

2.根据权利要求1所述的口语理解方法，其特征在于，所述融合模块，包括：

3.根据权利要求1所述的口语理解方法，其特征在于，所述口语理解解码器，包括：

4.根据权利要求1所述的口语理解方法，其特征在于，所述口语理解模型通过以下方式训练得到：

5.根据权利要求4所述的口语理解方法，其特征在于，所述待训练口语理解模型中的融合模块，包括：

6.根据权利要求4所述的口语理解方法，其特征在于，所述待训练口语理解模型中的口语理解解码器，包括：

7.根据权利要求1-6任一项所述的口语理解方法，其特征在于，所述适配器层具体用于：

8.一种口语理解装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述口语理解方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述口语理解方法。

...

【技术特征摘要】

1.一种口语理解方法，其特征在于，包括：

2.根据权利要求1所述的口语理解方法，其特征在于，所述融合模块，包括：

3.根据权利要求1所述的口语理解方法，其特征在于，所述口语理解解码器，包括：

4.根据权利要求1所述的口语理解方法，其特征在于，所述口语理解模型通过以下方式训练得到：

5.根据权利要求4所述的口语理解方法，其特征在于，所述待训练口语理解模型中的融合模块，包括：

6.根据权利要求4所述的口语理解方法，其特征在于，所述待训练口语理解模型中的口语理解解码器，包括：

7.根据权利要求1-6任一项所述的口语...

【专利技术属性】
技术研发人员：李康，赵江江，杨正哲，
申请(专利权)人：中移在线服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人