一种利用非平行语料提升语音识别系统性能的方法技术方案

技术编号:41508959 阅读:34 留言:0更新日期:2024-05-30 14:48
本发明专利技术公开了一种利用非平行语料提升语音识别系统性能的方法,涉及语音识别技术领域,步骤包括:收集包含大量语音和文本的非平行语料,这些语料获取来源包括互联网、社交媒体、广播节目等,建立非平行资源库;基于无标注语音预训练编码器;基于非平行文本库训练语音识别解码器;将训练得到的模型进行融合,实现编码器、解码器联合微调,在解码器的输入端增加一定能量的噪声,并在其输出端的标注的标签上增加了一定比例语言模型的软标签,且噪声与软标签的比例会随训练的迭代数逐渐降低,随着训练迭代数的增加,解码器逐渐转换为一个给定音频表征的语音识别器;将模型应用到语音识别系统,最终提升语音识别系统的性能。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,具体涉及一种利用非平行语料提升语音识别系统性能的方法


技术介绍

1、语音识别技术是一种将人类语音转换为文字的技术,允许计算机识别和理解人类语言的口头表达,近年来广泛地应用在各种实际场景之中。

2、语音识别系统在训练时往往需要大量成对的语音-文本形式的标注训练数据,标注数据的获取成本十分高昂。语音识别模型接触的语音数据不足,就会导致其对语音特征的提取能力受到限制,语音分类准确率下降;语音识别模型接触的文本数据不足,就会导致其文本生成能力不足,识别结果不满足人类的语法规则。

3、近年来,自监督学习技术得到了飞速的发展,相比于有监督学习需要大量的标注数据,自监督学习旨在从未标记的数据中学习信息表示。利用海量无标注数据进行自监督预训练,利用少量有标注数据进行有监督微调训练表征学习,在语音识别领域有着非常好的效果。

4、为了解决语音识别领域存在的问题,本专利利用自监督学习技术,提出了一种新颖的方法,利用非平行语料提升语音识别系统性能。


技术实现思路>

1、本文档来自技高网...

【技术保护点】

1.一种利用非平行语料提升语音系统识别性能的方法,其特征在于,步骤包括:

2.根据权利要求1所述的利用非平行语料提升语音系统识别性能的方法,其特征在于,步骤S2中的编码器基于非平行资源库训练,训练方法包括以下步骤:

3.根据权利要求2所述的利用非平行语料提升语音系统识别性能的方法,其特征在于,提取特征矩阵中,引入了非线性特征,应用非线性激活函数来引入非线性特征。

4.根据权利要求3所述的利用非平行语料提升语音系统识别性能的方法,其特征在于,训练Transformer模型之前在序列中添加了位置信息,并且对于上下文特征H进行掩蔽操作,将掩蔽后的上下文特征送...

【技术特征摘要】

1.一种利用非平行语料提升语音系统识别性能的方法,其特征在于,步骤包括:

2.根据权利要求1所述的利用非平行语料提升语音系统识别性能的方法,其特征在于,步骤s2中的编码器基于非平行资源库训练,训练方法包括以下步骤:

3.根据权利要求2所述的利用非平行语料提升语音系统识别性能的方法,其特征在于,提取特征矩阵中,引入了非线性特征,应用非线性激活函数来引入非线性特征。

4.根据权利要求3所述的利用非平行语料提升语音系统识别性能的方法,其特征在于,训练transformer模型之前在序列中添加了位置信息,并且对于上下文特征h进行掩蔽操作,将掩蔽后的上下文特征送入量化模块q,得到量化后的特征矩阵。

5.根据权利要求2所述的利用非平行语料提升语音系统识别性能的方法,其特征在于,在训练transformer模型时还会判断上下文特征与...

【专利技术属性】
技术研发人员:严宇平阮伟聪林嘉鑫林浩邵彦宁卫潮冰陈泽鸿胡波吴文远吴石松
申请(专利权)人:广东电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1