少量重口音数据下的端到端语音转文本模型优化方法技术

技术编号：28875332 阅读：29 留言：0更新日期：2021-06-15 23:09

本发明专利技术公开了少量重口音数据下的端到端语音转文本模型优化方法，包括以下步骤，所述端到端语音识别模型LAS的构建；根据少量重口音数据的声学特点，设计并构造基于注意力机制的序列到序列的端到端声学模型LAS；这些优点使其能够大大简化语音识别模型的构建和训练，并提升语音识别准确率；与已有的端到端模型相比，本发明专利技术所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练，该发明专利技术将已有的普通话语音特征知识迁移到重口语音模型中，能够显著提升重口音场景下的语音识别准确率；该模型能够利用现有的大规模普通话语音语料，能够有效降低重口音语音语料的获取和标注的成本。

全部详细技术资料下载

【技术实现步骤摘要】
少量重口音数据下的端到端语音转文本模型优化方法
本专利技术涉及人工智能
，具体为少量重口音数据下的端到端语音转文本模型优化方法。
技术介绍
近年来，大词汇量连续语音识别(LargeVocabularyContinuousSpeechRecognition，LVCSR)随着深度学习的引入，取得了明显的识别性能突破。因此，深度语音识别方法也成为了语音识别领域热门的研究方法。在深度学习的影响下，基于深度神经网络和隐马尔可夫模型(DeepNeuralNetwork-HiddenMarkovMode1，DNN-HMM)混合的语音识别方法显著增强了模型对音素状态的建模能力，大幅提升了语音识别的准确率。随着深度序列建模技术的发展，端到端建模方法逐步成为了语音识别领域的研究热点。端到端的语音识别模型在简化语音识别流程的同时，在语音识别准确率上已经能够与基于混合模型的方法相媲美。然而，在语音识别的声学模型训练建模中，模型参数的学习往往需要非常多的有标注的语音数据，而资源较少的重口音语音识别通常是在资源稀少的情况下进行声学模型建模，由于有标注的语音数据比较匮乏，导致重口音场景下的语音识别效果较差，因此如何提升端到端模型在少量重口音语音数据下的建模能力成为了重要的研究课题；尽管基于HMM系统的语音识别准确率能够达到相当高的水平，但是其繁琐的训练过程使该方法的易用性受到了很大限制。随着神经网络方法的快速发展，多数研究人员的研究方向由混合HMM模型转向了基于端到端的语音识别方法。现有的端到端语音识别系统主要包括基于连接时...

【技术保护点】
1.少量重口音数据下的端到端语音转文本模型优化方法，其特征在于，包括以下步骤，所述端到端语音识别模型LAS的构建；/n根据少量重口音数据的声学特点；/n设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。/n

【技术特征摘要】
1.少量重口音数据下的端到端语音转文本模型优化方法，其特征在于，包括以下步骤，所述端到端语音识别模型LAS的构建；
根据少量重口音数据的声学特点；
设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。

2.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法，其特征在于，所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成；
其中，所述编码器模块用于学习和挖掘语音特征序列的上下文关联信息，从原始特征中提取高层信息，增强特征的区分度和表征能力；
所述注意力模块用于学习编码器模块和解码器模块之间的关联度；解码器模块对输入的高层语义特征进行解码，再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。

3.根据权利要求2所述的少量重口音数据下的端到端语音转文本模型优化方法，其特征在于，常用大规模普通话语音识别模型的训练；
首先，使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练，得到普通话数据下的通用端到端语音识别模型。

4.根据权利要求3所述的少量重口音数据下的端到端语音转文本模型优化方法，其特征在于，少量重口音语音数据下的模型优化；
针对标准普通话语音数据下训练得到的通用语音识别模型，使用少量重口音语音数据对其进行优化。

5.根据权利要求4所述的少量重口音数据下的端到端语音转文本模型优化方法，其特征在于，少量重口音数据下的模型训练；
首先，冻结编码器模块的模型参数，即固定编码器模块在普通话语料下训练得到的模型参数；
其次，使用少量重口音数据对注意力模块和解码器模块进行优化，即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调，使其适应重口音语音特征的空间分布；
最后，训练得到少量重口音数据下的端到端语音转文本模型。

6.根据权利要求5所述的少量重口音数据下的端到端语音转文本模型优化方法，其特征在于，重口音场景下的语音解码；
首先，使用束搜索解码技术对重口音语音识别模型进行解码搜索，得到声学模型分数；
然后，使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算；
最后，使用语言模型分数对声学模型分数进行重打分，得到解码搜索最终的分数，由该分数计算得到重口音语音对应的解码文本。

7.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于，包括以下步骤：
S1，所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成；
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectionalLong-ShortTermMemory,pBLSTM)构成。对于输入的声学特征序列X＝[x1,x2,...,xn,...,xN]，xn为声学特征第n个位置的特征向量，将该特征序列作为长短时记忆网络层(Long-ShortTermMemory,LSTM)的输入特征，通过公式(1)～(5)可计算得到LSTM对应的输出序列h＝(h1,h2,…,hn,…,hN)；
fn＝σ(Wfxn+Ufhn-1+bf)\*MERGEFORMAT(1)
in＝σ(Wixn+Uihn-1+bi)\*MERGEFORMAT(2)
on＝σ(Woxn+Uohn-1+bo)\*MERGEFORMAT(3)

其中，fn，in，on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量，σ是Sigmoid激活函数，Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵；bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量；xn为第n个时间步的输入特征；hn-1为第n-1个时...

【专利技术属性】
技术研发人员：赵雨嫣，
申请(专利权)人：南京迪港科技有限责任公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人