System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多注意力多特征语音识别方法、系统、存储介质及电子设备技术方案_技高网

多注意力多特征语音识别方法、系统、存储介质及电子设备技术方案

技术编号:41219452 阅读:2 留言:0更新日期:2024-05-09 23:40
本发明专利技术提供一种多注意力多特征语音识别方法、系统、存储介质及电子设备,所述方法包括:获取语音的原始波形信息和对应的文本信息;基于声学编码器获取原始波形信息的声学特征;获取声学特征的解码文本;获取声学特征对应的解码波形信息;基于解码波形信息和原始波形信息获取L1损失;基于声学特征获取声学损失;基于声学编码器产生的过程声学特征、声学特征和文本信息获取CTC损失;基于解码文本和文本信息获取交叉熵损失;基于L1损失、声学损失、CTC损失和交叉熵损失构建总损失函数来训练声学编码器,以基于训练好的声学编码器进行语音识别。本发明专利技术的多注意力多特征语音识别方法、系统、存储介质及电子设备能够有效提高语音识别的准确率。

【技术实现步骤摘要】

本专利技术属于深度学习的,特别是涉及一种多注意力多特征语音识别方法、系统存储介质及电子设备。


技术介绍

1、随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别技术,也被称为自动语音识别(automatic speech recognition,asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

2、近来,语音识别技术取得显著进步,其涉及工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。

3、现有技术中,语音识别技术常用的方法有如下四种:

4、(1)基于语言学和声学的方法;

5、(2)随机模型法;

6、(3)利用人工神经网络的方法;

7、(4)概率语法分析,其中最主流的方法是随机模型法。

8、然而,现有的语音识别算法在准确率上均存在一定的欠缺,无法满足实际应用场景的需求。


技术实现思路

1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种多注意力多特征语音识别方法、系统、存储介质及电子设备,能够基于多个声学特征有效提高语音识别的准确率。

2、第一方面,本专利技术提供一种多注意力多特征语音识别方法,所述方法包括以下步骤:获取语音的原始波形信息和对应的文本信息;基于声学编码器获取所述原始波形信息的声学特征;基于字符解码器获取所述声学特征的解码文本;基于波形解码器获取所述声学特征对应的解码波形信息;基于所述解码波形信息和所述原始波形信息获取l1损失;基于所述声学特征获取声学损失;基于声学编码器产生的过程声学特征、所述声学特征和所述文本信息获取ctc损失;基于所述解码文本和所述文本信息获取交叉熵损失;基于所述l1损失、所述声学损失、所述ctc损失和所述交叉熵损失构建总损失函数;基于所述总损失函数训练所述声学编码器,以基于训练好的声学编码器进行语音识别。

3、在第一方面的一种实现方式中,所述声学编码器包括一个预处理模块和n个级联的声学编码块;所述预处理模块用于获取所述原始波形信息的fbank相关特征、mfcc相关特征和stft相关特征;前n-1级声学编码块用于生成所述原始波形信息的过程声学特征,最后一级声学编码块用于生成所述声学特征。

4、在第一方面的一种实现方式中,所述预处理模块获取所述原始波形信息的fbank相关特征、mfcc相关特征和stft相关特征包括以下步骤:

5、对所述原始波形数据进行短时傅立叶变换,获取stft特征;

6、基于对数mel滤波器对所述原始波形数据进行滤波,获取fbank特征;

7、对所述原始波形数据进行离散余弦变换,获取mfcc特征;

8、将所述fbank特征经过2层lstm模块,将输出结果的最后一帧作为声学嵌入特征;将所述fbank特征经过2层的一维卷积模块,获取所述fbank相关特征;

9、将所述stft特征经过一维卷积模块后与所述声学嵌入特征相加,获取所述stft相关特征;

10、将所述mfcc特征特征经过一维卷积模块后与所述声学嵌入特征相加,获取所述mfcc相关特征。

11、在第一方面的一种实现方式中,所述声学编码块包括三个输入和三个输出,所述fbank相关特征、所述mfcc相关特征和所述stft相关特征作为所述第一级声学编码块的输入,前一级声学编码块的输出作为后一级声学编码块的输入,前九级声学编码块的三个输出作为所述过程声学特征,最后一级声学编码块的三个输出的元素均值作为所述声学特征:

12、所述声学编码块的三个输入分别经过一个权重共享的transfromer编码层,获取注意力机制的q矩阵、k矩阵和v矩阵;

13、对所述q矩阵在frame维度上进行一维最大池化操作,再经过多层感知机和sigmoid激活函数,获取尺寸注意力权重;

14、对所述k矩阵在嵌入维度上进行一维平均池化操作,再经过多层感知机和sigmoid激活函数,获取帧注意力权重;

15、对所述q矩阵和所述k矩阵的转置进行矩阵乘法并经过softmax函数,获取注意力权重,将所述注意力权重与所述v矩阵进行矩阵乘法,获取mfcc声学特征;

16、将所述mfcc声学特征与的所述尺寸注意力权重进行矩阵乘法,获取mfcc声学特征尺寸;

17、将所述mfcc声学特征与的所述帧注意力权重进行矩阵乘法,获取mfcc声学特征帧;

18、对所述mfcc声学特征尺寸和所述mfcc声学特征帧进行元素平均,再与所述v矩阵相加后经过一维卷积模块,将所述一维卷积模块的输出复制三份,作为下一级声学编码块的输入。

19、在第一方面的一种实现方式中,基于字符解码器获取所述声学特征的解码文本包括以下步骤:

20、训练所述字符解码器,所述字符解码器包括一次相连的16层transformer解码层、线性层和softmax,所述字符解码器输入训练文本,输出所述训练文本的解码文本;根据所述解码文本和所述训练文本计算对应的交叉熵损失,根据所述交叉熵损失调整所述字符解码器的权重;

21、基于训练好的字符解码器获取所述声学特征的解码文本。

22、在第一方面的一种实现方式中,基于波形解码器获取所述声学特征对应的解码波形信息包括以下步骤:

23、构建所述波形解码器,所述波形解码器包括32个级联的解码块,所述解码块包括依次相连的第一一维卷积模块、relu函数、一维反卷积模块、leak relu函数、第二一维卷积模块和第三一维卷积模块;所述第一一维卷积模块的输出连接至所述第三一维卷积模块的输入,所述一维反卷积模块的输出连接至所述第三一维卷积模块的输入;

24、将所述声学特征输入所述波形解码器,获取解码特征;

25、将所述解码特征输入tanh函数,获取所述解码波形信息。

26、在第一方面的一种实现方式中,基于所述声学特征获取声学损失包括以下步骤:

27、对于所述声学特征的每一帧,计算帧声学损失-log(a/b),其中a表示所述帧与相邻帧的相似度,b表示所述帧与非相邻帧的相似度之和;

28、计算各帧的帧声学损失的均值,作为所述声学损失。

29、第二方面,本专利技术提供一种多注意力多特征语音识别系统,所述系统包括第一获取模块第二获取模块、第三获取模块、第四获取模块、第五获取模块、第六获取模块、第七获取模块、第八获取模块、构建模块和识别模块;

30、所述第一获取模块用于获取语音的原始波形信息和对应的文本信息;

31、所述第二获取模块用于基于本文档来自技高网...

【技术保护点】

1.一种多注意力多特征语音识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的多注意力多特征语音识别方法,其特征在于:所述声学编码器包括一个预处理模块和N个级联的声学编码块;所述预处理模块用于获取所述原始波形信息的fbank相关特征、mfcc相关特征和stft相关特征;前N-1级声学编码块用于生成所述原始波形信息的过程声学特征,最后一级声学编码块用于生成所述声学特征。

3.根据权利要求2所述的多注意力多特征语音识别方法,其特征在于:所述预处理模块获取所述原始波形信息的fbank相关特征、mfcc相关特征和stft相关特征包括以下步骤:

4.根据权利要求2所述的多注意力多特征语音识别方法,其特征在于:所述声学编码块包括三个输入和三个输出,所述fbank相关特征、所述mfcc相关特征和所述stft相关特征作为所述第一级声学编码块的输入,前一级声学编码块的输出作为后一级声学编码块的输入,前九级声学编码块的三个输出作为所述过程声学特征,最后一级声学编码块的三个输出的元素均值作为所述声学特征:

5.根据权利要求1所述的多注意力多特征语音识别方法,其特征在于:基于字符解码器获取所述声学特征的解码文本包括以下步骤:

6.根据权利要求1所述的多注意力多特征语音识别方法,其特征在于:基于波形解码器获取所述声学特征对应的解码波形信息包括以下步骤:

7.根据权利要求1所述的多注意力多特征语音识别方法,其特征在于:基于所述声学特征获取声学损失包括以下步骤:

8.一种多注意力多特征语音识别系统,其特征在于,所述系统包括第一获取模块、第二获取模块、第三获取模块、第四获取模块、第五获取模块、第六获取模块、第七获取模块、第八获取模块、构建模块和识别模块;

9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至7中任一项所述的多注意力多特征语音识别方法。

...

【技术特征摘要】

1.一种多注意力多特征语音识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的多注意力多特征语音识别方法,其特征在于:所述声学编码器包括一个预处理模块和n个级联的声学编码块;所述预处理模块用于获取所述原始波形信息的fbank相关特征、mfcc相关特征和stft相关特征;前n-1级声学编码块用于生成所述原始波形信息的过程声学特征,最后一级声学编码块用于生成所述声学特征。

3.根据权利要求2所述的多注意力多特征语音识别方法,其特征在于:所述预处理模块获取所述原始波形信息的fbank相关特征、mfcc相关特征和stft相关特征包括以下步骤:

4.根据权利要求2所述的多注意力多特征语音识别方法,其特征在于:所述声学编码块包括三个输入和三个输出,所述fbank相关特征、所述mfcc相关特征和所述stft相关特征作为所述第一级声学编码块的输入,前一级声学编码块的输出作为后一级声学编码块的输入,前九级声学编码块的三个输出作为所述过程声学特征,...

【专利技术属性】
技术研发人员:孔欧
申请(专利权)人:上海蜜度数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1