一种基于知识图谱和语音特征融合网络的语音理解方法技术

技术编号：40368830 阅读：3 留言：0更新日期：2024-02-20 22:13

本发明专利技术公开了一种基于知识图谱和语音特征融合网络的语音理解方法，属于语音识别纠错领域，为了更有效识别，将语音增强网络、语音特征融合网络和语音识别网络进行级联结合，在后续的纠错过程中，引入了基于知识图谱的发散感知纠错方法，知识图谱中的实体被关系连接起来，最后级联一个基于MacBERT的端到端纠错模型作第二重纠错处理，这样基于领域知识图谱的纠错方法更容易检测到专业领域的字词错误并将其修正，而且这种基于知识图谱强语义信息的纠错方式可靠性更高；本发明专利技术采用上述方法，降低语音背景噪声的影响，降低语音理解系统的字符错误率，并能针对特定领域，构建相应的知识图谱，使用基于知识图谱的方法进行可靠性更高的纠错。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及对语音数据处理的，尤其是涉及一种基于知识图谱和语音特征融合网络的语音理解方法。

技术介绍

1、语音理解旨在将人类的语音信息转化为计算机可以理解的字符序列，语音理解主要包括了自动语音识别automatic speech recognition(asr)和语音识别纠错两大环节。语音理解作为重要的一环，很容易受到现实环境中的噪声影响，所以语音增强的方法常被用于语音的去噪来提高语音识别的表现。针对语音识别的输出，语音识别纠错也被广泛用于优化asr的输出结果，随着深度学习的推出，已有大量的研究将深度学习用于asr，目前主流的方案是使用联合训练框架，同时对语音增强和asr以相同的目标共同优化，因为在实现鲁棒性的asr时，语音增强和语音识别不是两个独立的任务，它们明显可以相互受益，但这些方案只使用增强后的特征用于语音识别，会受到增强导致的语音失真的影响。语音识别纠错是一种典型的序列到序列任务，它以asr模型生成的句子为源序列，以真实句子为目标序列，对源序列中的错误进行纠错，与英语等西方语言相比，汉语错误检测更加复杂，因为汉语书面文本中没有单词分隔符，字词的纠错只能在单词级别上进行，而且以往的方法大多数没有加入外部知识来支持纠错，在特定场景下的纠错难以突破瓶颈。

2、因此，提供了一种基于知识图谱和语音特征融合网络的语音理解方法。

技术实现思路

1、本专利技术的目的是提供一种基于知识图谱和语音特征融合网络的语音理解方法，能够降低语音背景噪声的影响，降低语音理解系统的字符错误

2、为实现上述目的，本专利技术提供了一种基于知识图谱和语音特征融合网络的语音理解方法，包括以下步骤：

3、s1：获取大型语音数据集，并自行录制领域对话语音数据集，对大型语音数据集和领域对话语音数据集中的每条语音都与噪声混叠来生成嘈杂语音数据集；

4、s2：依据领域对话语音数据集，查阅相关资料并构建对应领域的知识图谱；

5、s3：构建提取语音fbank特征的fbank特征提取网络，选择能进行复值操作的深度复卷积递归网络dccrn，作为复值域的语音增强网络；

6、构建自适应性的语音特征融合网络；

7、使用e-branchformer作为编码器，transformer作为解码器，构建端到端的语音识别网络；

8、s4：使用步骤s1中的嘈杂语音数据集来同时训练语音增强网络、自适应性的语音增强融合网络和语音识别网络，将训练好的语音增强网络、自适应性的语音增强融合网络和语音识别网络进行级联，组成声学模型；

9、s5：对声学模型进行优化，直到符合标准；

10、s6：使用步骤s5中的声学模型，输入待识别的语音，进行语音的识别，输出字符序列的句子；

11、s7：使用步骤s2中的知识图谱对声学模型输出的字符序列的句子进行一次纠错，得到一次纠错结果；

12、s8：使用基于macbert的端到端纠错模型，对步骤s6中的一次纠错结果再进行纠错，在不改动一次纠错修改内容的前提下，得到二次纠错结果，二次纠错结果为最终的识别结果。

13、优选的，所述步骤s3中，构建fbank特征提取网络的参数如下：

14、fbank特征提取网络以32ms汉明窗长8ms窗移的stft对输入语音提取stft特征，再通过257x80的矩阵乘法转换为80维的fbank特征。

15、优选的，所述步骤s3中，构建自适应语音特征融合网络的过程如下：

16、自适应语音特征融合网络包括若干个局部注意力模块和若干个全局注意力模块，其中局部注意力模块接受张量输入，得到张量输入之后，先经过第一个卷积层的计算，之后紧跟着一个bn1层和relu激活函数，relu函数处理后的输出，馈送到第二卷积层，之后再输送第二个bn2层，在bn2层之后得到局部注意力模块的输出；

17、其中全局注意力模块接受张量输入，得到张量输入之后，先对输入进行一个1维全局平均池化操作，然后经过第一个卷积层的计算，之后紧跟着一个bn1层和relu激活函数，relu函数处理后的输出，馈送到第二卷积层，之后再输送第二个bn2层，在bn2层之后得到全局注意力模块的输出。

18、优选的，所述步骤s5中，对声学模型进行优化的过程如下：

19、计算声学模型的损失函数，公式如下：

20、l＝αlenh+βlasr

21、上式中，l表示声学模型总的损失函数，lenh表示语音增强网络的损失函数，lasr表示语音识别网络的损失函数，α和β分别表示这两个损失函数的权重参数；

22、采用adamw优化器来优化声学模型，设置批大小为32，学习率为0.001，权重衰减设为0.01，在每一次迭代优化中，同时调整语音增强网络、自适应性的语音增强融合网络和语音识别网络的网络参数；

23、当声学模型的损失函数的值在一个区间波动时，优化过程结束。

24、优选的，所述步骤s6中，声学模型的识别过程，包括步骤如下：

25、s61：对于输入语音，先使用fbank特征提取网络，提取原始语音特征；再使用语音增强网络对输入的语音信号进行增强，使用fbank特征提取网络得到增强后的语音特征；

26、s62：自适应性的语音特征融合网络中，增强后的语音特征和原始语音特征作为整个融合网络的输入，先将增强后的语音特征和原始语音特征相加，然后将相加的结果同时馈送到局部注意力模块1和全局注意力模块1，经这两个注意力模块处理后分别得到局部注意力模块1输出loutput1和全局注意力模块1输出goutput1，再将loutput1和goutput1相加，相加后的结果通过一个sigmod激活函数，sigmod激活函数处理后将得到第一个逐元素掩码w1，将增强后的语音特征和原始语音特征分别与w1和(1-w1)相乘，将相乘后的结果相加，然后将相加的结果同时馈送到局部注意力模块2和全局注意力模块2，局部注意力模块1和局部注意力模块2的网络结构和初始参数相同，全局注意力模块1和全局注意力模块2的网络结构和初始参数相同；

27、经这两个注意力模块处理后，分别得到局部注意力模块2输出的loutput2和全局注意力模块2输出的goutput2，再将loutput2和goutput2相加，相加后的结果通过一个sigmod激活函数，sigmod激活函数处理后将得到第二个逐元素掩码w2，将增强后的特征和原始语音特征分别与w2和(1-w2)相乘，将相乘后的结果相加，则得到融合后的特征，公式如下：

28、

29、ff是融合后特征，fn分别表示增强后的特征和原始语音特征，w2是学习得到的逐元素掩码；

30、s63：使用融合后的特征ff作为语音识别网络的输入进行语音识别，本文档来自技高网...

【技术保护点】

1.一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：所述步骤S3中，构建Fbank特征提取网络的参数如下：

3.根据权利要求2所述的一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：所述步骤S3中，构建自适应语音特征融合网络的过程如下：

4.根据权利要求3所述的一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：所述步骤S5中，对声学模型进行优化的过程如下：

5.根据权利要求4所述的一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：所述步骤S6中，声学模型的识别过程，包括步骤如下：

6.根据权利要求5所述的一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：所述步骤S7中，使用知识图谱进行一次纠错的过程如下：

【技术特征摘要】

1.一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：所述步骤s3中，构建fbank特征提取网络的参数如下：

3.根据权利要求2所述的一种基于知识图谱和语音特征融合网络的语音理解方法，其特征在于：所述步骤s3中，构建自适应语音特征融合网络的过程如下：

4.根据权利要求...

【专利技术属性】
技术研发人员：谢明山，滚流海，邓艳芳，
申请(专利权)人：贵州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人