System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于对比学习和混合注意力的口语英语识别方法和系统技术方案_技高网
当前位置: 首页 > 专利查询>山东大学专利>正文

基于对比学习和混合注意力的口语英语识别方法和系统技术方案

技术编号:41067806 阅读:2 留言:0更新日期:2024-04-24 11:22
本发明专利技术提出了基于对比学习和混合注意力的口语英语识别方法和系统,包括:获取口语英语考试的音频,依据环境录音叠加随机类别的噪声实现噪声增强进而构造正样本;基于多尺度和混合注意力对对添加噪声的数据进行特征提取;将特征经过嵌入和位置编码后输入至编码器进行上下文建模;将编码器的输出和经嵌入和位置编码后的目标特征输入至解码器完成解码;在训练过程中,通过正样本的输入计算对比损失,同时计算每个样本的损失,反向传输,获得识别模型;待转录的考生音频输入至识别模型,获得识别结果。

【技术实现步骤摘要】

本专利技术属于语音识别,尤其涉及基于对比学习和混合注意力的口语英语识别方法和系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、语音识别是一种基于声波信号将语音转录为人类或计算机可以理解的文本,该技术广泛应用于自然语言交互、智能家居、自动驾驶和金融服务等领域。

3、早期语音识别基于模版匹配,提取语音信号后,简单地将语音信号与已有的预设模版进行匹配。然后这种方法噪音环境下的识别能力极差,而且由于说话人的不同和语言能力的不同,预设模板很难去确定和保证全部的情况。随着机器学习技术的兴起,统计学习建模逐渐成为主流,该方法依据大量的训练数据,构建概率模型,能够得到更高的识别准确率。

4、近年深度学习发展迅速,在自然语言处理、计算机视觉和语言识别上都取得了非常卓越的效果,深度学习模型能够更好的建模语音特征和文本之间的关系,是目前识别准确率最高的方法,本专利技术的语言识别模型也是基于深度学习方法。总的来说,基于深度学习的语音识别模型在准确率、鲁棒性和速度上都显著提高,但是仍然存在一些不足,比如数据量不足的情况下难以训练出优秀的模型,或者在噪音环境下识别准确率降低等问题。

5、语音识别和语音合成等领域对音频的质量和数量有很高的要求,但是实际应用场景中,由于场景或者设备的不足,录制的音频质量往往不是很理想,比如含有噪声、回声、失真或者低音炸音等。质量较低的音频数据难以训练出高准确率的语音识别模型,对转录后的分析工作带来了诸多不便。针对质量较低的噪音数据,以往方法可以通过预处理来解决,降低噪声或噪声对实际任务的干扰,比如滤波器、降噪算法等,但是这些方法需要花费大量的时间精力,降噪效果也不尽人意。

6、与普通的语音识别相比,考场口语噪音多而杂,原因来源于录制环境和设备,这大大的增加了语音识别的难度,降低了识别的准确率,因此,普通的语音识别技术难以直接应用至口语英语的识别中。


技术实现思路

1、为克服上述现有技术的不足,本专利技术提供了基于对比学习和混合注意力的口语英语识别方法,分析考场口语的特点和环境设定,以增强抗噪能力为主要目的,有助于提高口语评分系统的准确率和可靠性,为考生和考官带来更好的用户体验。

2、为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:

3、第一方面,公开了基于对比学习和混合注意力的口语英语识别方法,包括:

4、获取口语英语考试的音频,依据环境录音叠加随机类别的噪声实现噪声增强进而构造正样本;

5、基于多尺度和混合注意力对对添加噪声的数据进行特征提取;

6、将特征经过嵌入和位置编码后输入至编码器进行上下文建模;

7、将编码器的输出和经嵌入和位置编码后的目标特征输入至解码器完成解码;

8、在训练过程中,通过正样本的输入计算对比损失,同时计算每个样本的损失,反向传输,获得识别模型;

9、待转录的考生音频输入至识别模型,获得识别结果。

10、作为进一步的技术方案,基于多尺度和混合注意力对对添加噪声的数据进行特征提取,具体为:

11、对添加噪声的数据提取音频的特征;

12、对提取的音频特征通过不同窗口大小卷积降维后拼接,得到多尺度的特征表示;

13、基于时序和尺度的混合注意力机制计算每一个时序对不同尺度特征的注意力分数;

14、基于注意力分数加权计算每一个维度的特征,获得混合注意力计算后的多尺度融合特征。

15、作为进一步的技术方案,在尺度维度上拼接特征,并通过卷积降低维度,得到尺寸为(t,c,l)的特征图,其余l是不同尺度的数量,t是单个尺度的时序数目,而c则是单个时序位置的特征维度;

16、通过三个分支获取维度为(t*l,1)的q、k、v向量,其中,v向量通过最大池化获得,而q和k向量则通过卷积降维得到,将q向量转置后与k向量进行矩阵乘法,生成形状为(t*l,t*l)的注意力矩阵,之后,将注意力矩阵与v向量相乘,得到大小为(t*l,1)的尺度注意力分数。

17、作为进一步的技术方案,基于注意力分数加权计算每一个维度的特征,获得混合注意力计算后的多尺度融合特征,具体为:

18、将q、k、v向量通过两个全连接层进行平滑和信息提炼后,拆分时序和尺度维度,并在尺度维度上softmax归一化注意力分数,代表每个时序中各个尺度的重要性;

19、利用归一化的注意力分数以加权求和的方式计算多尺度特征图中的每个时序的特征值,得到注意力机制计算后的注意力图。

20、作为进一步的技术方案,基于多尺度和混合注意力对对添加噪声的数据进行特征提取之前还包括音频特征提取,具体为:

21、对特征进行加窗,每个窗口视为一帧,紧接着,对每一帧做快速傅里叶变换,获得频率特征,最终将每一帧在时间维度堆叠起来就可以得到声谱图。

22、作为进一步的技术方案,训练时,解码器输入是编码器的输出、经特征嵌入和位置编码后的目标序列,在推理时,经由解码器得到每个时步的概率分布,对于每个时步得到的特征经过处理后得到分类向量,对应着该时步选择每个单词的概率,在得到每一个时步的概率矩阵后,通过解码算法来搜索最佳的文本序列,得到识别结果。

23、作为进一步的技术方案,所述解码器解码时选用了正反向的平行解码器来取代conformer原文中的lstm,逆向的解码器在训练时输入相反目标序列。

24、第二方面,公开了基于对比学习和混合注意力的口语英语识别系统,包括:

25、噪声叠加模块,被配置为:获取口语英语考试的音频,依据环境录音叠加随机类别的噪声实现噪声增强进而构造正样本;

26、特征提取模块,被配置为:基于多尺度和混合注意力对对添加噪声的数据进行特征提取;

27、编码及解码模块,被配置为:将特征经过嵌入和位置编码后输入至编码器进行上下文建模;

28、将编码器的输出和经嵌入和位置编码后的目标特征输入至解码器完成解码;

29、训练模块,被配置为:在训练过程中,通过正样本的输入计算对比损失,同时计算每个样本的损失,反向传输,获得识别模型;

30、识别模块,被配置为:待转录的考生音频输入至识别模型,获得识别结果。

31、以上一个或多个技术方案存在以下有益效果:

32、为了更进一步提高语言识别模型的噪音鲁棒性,本专利技术提出了一种基于对比学习的语音识别训练方法。该方法通过添加噪音实现数据增强,与原始干净的语音作为正样本对进行对比学习,提高模型在噪音环境下的识别准确率。方法思想是期望模型能够学习到原始和加噪音频之间的映射关系,利用二者的差异来学习一个更加鲁棒的特征表征能力,进而提高在噪音环境中的泛化能力。

33、为了减少噪声特征对语言识别模型的破坏性,关注更有用的特征,本专利技术将多尺度融合的特征提取方式引入到语言本文档来自技高网...

【技术保护点】

1.基于对比学习和混合注意力的口语英语识别方法,其特征是,包括:

2.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,基于多尺度和混合注意力对对添加噪声的数据进行特征提取,具体为:

3.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,在尺度维度上拼接特征,并通过卷积降低维度,得到尺寸为(t,c,L)的特征图,其余L是不同尺度的数量,t是单个尺度的时序数目,而c则是单个时序位置的特征维度;

4.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,基于注意力分数加权计算每一个维度的特征,获得混合注意力计算后的多尺度融合特征,具体为:

5.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,基于多尺度和混合注意力对对添加噪声的数据进行特征提取之前还包括音频特征提取,具体为:

6.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,训练时,解码器输入是编码器的输出、经特征嵌入和位置编码后的目标序列,在推理时,经由解码器得到每个时步的概率分布,对于每个时步得到的特征经过处理后得到分类向量,对应着该时步选择每个单词的概率,在得到每一个时步的概率矩阵后,通过解码算法来搜索最佳的文本序列,得到识别结果。

7.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,所述解码器解码时选用了正反向的平行解码器来取代Conformer原文中的LSTM,逆向的解码器在训练时输入相反目标序列。

8.基于对比学习和混合注意力的口语英语识别系统,其特征是,包括:

9.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行上述权利要求1-7任一所述方法的步骤。

...

【技术特征摘要】

1.基于对比学习和混合注意力的口语英语识别方法,其特征是,包括:

2.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,基于多尺度和混合注意力对对添加噪声的数据进行特征提取,具体为:

3.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,在尺度维度上拼接特征,并通过卷积降低维度,得到尺寸为(t,c,l)的特征图,其余l是不同尺度的数量,t是单个尺度的时序数目,而c则是单个时序位置的特征维度;

4.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,基于注意力分数加权计算每一个维度的特征,获得混合注意力计算后的多尺度融合特征,具体为:

5.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法,其特征是,基于多尺度和混合注意力对对添加噪声的数据进行特征提取之前还包括音频特征提取,具体为:

6.如权利要求1所述的基于对比学习和混合注意力的口语英语识别方法...

【专利技术属性】
技术研发人员:许信顺谢镇宇罗昕陈振铎
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1