局部特征增强的语音识别方法、系统、设备及介质技术方案

技术编号:38910982 阅读:25 留言:0更新日期:2023-09-25 09:27
本发明专利技术提出了一种局部特征增强的语音识别方法、系统、设备及介质,方法包括:对原始音频进行预处理,获得音频特征x=(x1,

【技术实现步骤摘要】
局部特征增强的语音识别方法、系统、设备及介质


[0001]本专利技术涉及计算机
,具体涉及一种局部特征增强的语音识别方法、系统、设备及介质。

技术介绍

[0002]随着深度学习技术的发展,Transformer网络已成为自动语音识别领域中的一种极具潜力和应用前景的新兴方法。然而,现有的Transformer网络在语音识别领域的应用中,捕捉局部特征以及局部特征和全局特征融合处理是自动语音识别领域中至关重要的一环,由于Transformer网络的全局特征建立机制,使得Transformer网络无法有效获取局部特征,这也导致语音识别模型的性能和精度受到制约,语音识别的准确率降低。
[0003]此外,设置固定的滑动窗口来获取局部信息,也不是一个有效的解决方案,因为不同的Transformer层所关注的token范围不同,而固定窗口限制了令牌之间的交互,不能很好地提取局部信息。这就导致了算法的局限性,其性能和精度会受到一定的制约
[0004]因此,亟需一种能够提取局部特征并添加到全局特征中实现局部特征增强和特征融合处理的局部特征增强本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种局部特征增强的语音识别方法,其特征在于,所述方法包括:S1:对原始音频进行预处理,获得音频特征x=(x1,

,x
T1
);S2:基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;S3:基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果Y=(Y1,

,Y
M
)。2.根据权利要求1所述的局部特征增强的语音识别方法,其特征在于,所述对原始音频进行预处理,获得音频特征x=(x1,

,x
T1
)包括:S101:通过前端模块将所述原始音频从时域转换到频域以获得log Mel特征序列;S102:通过数据增强模块对频谱图进行数据增强;S103:通过归一化层使用均值方差对所述特征序列进行归一化处理;S104:将归一化处理后的所述特征序列通过卷积下采样模块进行下采样,对下采样数据进行位置编码,获得带有位置编码的音频特征x=(x1,

,x
T1
)。3.根据权利要求1所述的局部特征增强的语音识别方法,其特征在于,所述语音识别网络模型包括由N个编码器层组成的编码器以及M个解码器层组成的解码器,所述编码器层包括局部增强型多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述解码器层包括局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述可变性滑动窗口模块通过嵌入层输入为不同的所述编码器层和所述解码器层选择不同的局部增强感受野。4.根据权利要求3所述的局部特征增强的语音识别方法,其特征在于,所述局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块均包含残差连接和层归一化。5.根据权利要求4所述的局部特征增强的语音识别方法,其特征在于,所述基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果Y=(Y1,

,Y
M
),其具体包括:基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
T1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分C
i
,i表示为所述编码器层对应的第i层;基于所述编码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分C
i
,进行注意力机制中上下文交互范围的控制,对编码器层进行局部特征增强,输出编码器层对应的注意力加权;基于所述编码器层的所述前馈网络模块,对编码器层的输出进行线性映射和或/非线性映射,输出所述编码器中每一个编码器层对应的高水平特征X=(X1,

,X
N
)以及对应所述高水平特征位置的标签序列y=(y1,

,y
T2
),所述N表示所述编码器的编码器层数;基于所述解码器层的所述可变性滑动窗口模块,将所述编码器输出的高水平特征X=(X1,

,X
N
)以及标签序列y=(y1,

,y
T2
)作为输入,结合掩码技术进行融合计算解码器层的注意力得分U
j
;基于所述解码器层的所述多头自注意力模块,采用注意力机制结合多头方案进行并行计算,通过标签序列y=(y1,

,y
T2
)将不同序列全局上下文信息进行标记关联,获得解码器层的注意力矩阵;
基于所述解码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分U
j
,进行注意力机制中上下文交互范围的控制,对解码器层进行局部特征增强,输出解码器层对应的注意力加权;基于所述解码器层的所述前馈网络模块,对解码器层的输出进行线性映射和或/非线性映射,输出语音识别结果Y=(Y1,

,Y
M
)。6.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
T1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分C
i
,其计算公式为:其中,T1表示音频特征的长度,C
i
表示编码器层的注意力得分,w为常数且计算每一个注意力得分C
i
对应的w取值均不同,i表示对应编码器层的层数,T表示矩阵转置,表示缩放因子,mask表示掩码技术用于保留矩阵对角线上w范围内的特征元素。7.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述解码器层的所述可变性滑动窗口模块,将所述编码器输出的高水平特征X=(X1,

,X
N
)以及标签序列y=(y1,

,y
T2
)作为输入,结合掩码技术进行融合计算解码器层的注意力得分U
j
,其计算公式为:其中,U
j
表示解码器层的注意力得分,,y表示标签序列中的元素,X
N
表示高水平特征中的元素,T2表示...

【专利技术属性】
技术研发人员:黄海亮魏光勇段志奎白剑梁瑛玮张海林鲁和平李长杰陈焕然李乐王浩洪行健冷冬丁一
申请(专利权)人:易方信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1