少量重口音数据下的端到端语音转文本模型优化方法技术

技术编号:28875332 阅读:29 留言:0更新日期:2021-06-15 23:09
本发明专利技术公开了少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS;这些优点使其能够大大简化语音识别模型的构建和训练,并提升语音识别准确率;与已有的端到端模型相比,本发明专利技术所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,该发明专利技术将已有的普通话语音特征知识迁移到重口语音模型中,能够显著提升重口音场景下的语音识别准确率;该模型能够利用现有的大规模普通话语音语料,能够有效降低重口音语音语料的获取和标注的成本。

【技术实现步骤摘要】
少量重口音数据下的端到端语音转文本模型优化方法
本专利技术涉及人工智能
,具体为少量重口音数据下的端到端语音转文本模型优化方法。
技术介绍
近年来,大词汇量连续语音识别(LargeVocabularyContinuousSpeechRecognition,LVCSR)随着深度学习的引入,取得了明显的识别性能突破。因此,深度语音识别方法也成为了语音识别领域热门的研究方法。在深度学习的影响下,基于深度神经网络和隐马尔可夫模型(DeepNeuralNetwork-HiddenMarkovMode1,DNN-HMM)混合的语音识别方法显著增强了模型对音素状态的建模能力,大幅提升了语音识别的准确率。随着深度序列建模技术的发展,端到端建模方法逐步成为了语音识别领域的研究热点。端到端的语音识别模型在简化语音识别流程的同时,在语音识别准确率上已经能够与基于混合模型的方法相媲美。然而,在语音识别的声学模型训练建模中,模型参数的学习往往需要非常多的有标注的语音数据,而资源较少的重口音语音识别通常是在资源稀少的情况下进行声学模型建模,由于有标注的语音数据比较匮乏,导致重口音场景下的语音识别效果较差,因此如何提升端到端模型在少量重口音语音数据下的建模能力成为了重要的研究课题;尽管基于HMM系统的语音识别准确率能够达到相当高的水平,但是其繁琐的训练过程使该方法的易用性受到了很大限制。随着神经网络方法的快速发展,多数研究人员的研究方向由混合HMM模型转向了基于端到端的语音识别方法。现有的端到端语音识别系统主要包括基于连接时序分类(ConnectionistTemporalClassification,CTC)模型的方法、基于循环神经网络的截断模型(RecurrentNeuralNetworksTransducer,RNN-T)方法以及基于注意力机制的序列到序列的模型(Sequence-to-Sequence,Seq2Seq)方法三类。语音问题实际上可以理解为从语音序列到文本序列的序列转换问题,其难点在于输入序列长度远大于输出序列长度,模型往往需要学习语音和文本的对齐关系。
技术实现思路
本专利技术的目的可以通过以下技术方案实现:少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。优选的,所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成;其中,编码器模块用于学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;注意力模块用于学习编码器模块和解码器模块之间的关联度;解码器模块对输入的高层语义特征进行解码,再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。优选的,常用大规模普通话语音识别模型的训练;首先,使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练,得到普通话数据下的通用端到端语音识别模型。优选的,少量重口音语音数据下的模型优化;针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。优选的,少量重口音数据下的模型训练;首先,冻结编码器模块的模型参数,即固定编码器模块在普通话语料下训练得到的模型参数;其次,使用少量重口音数据对注意力模块和解码器模块进行优化,即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调,使其适应重口音语音特征的空间分布;最后,训练得到少量重口音数据下的端到端语音转文本模型。优选的,重口音场景下的语音解码。首先,使用束搜索解码技术对重口音语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤:S1,所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectionalLong-ShortTermMemory,pBLSTM)构成。对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-ShortTermMemory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,…,hn,…,hN);fn=σ(Wfxn+Ufhn-1+bf)\*MERGEFORMAT(1)in=σ(Wixn+Uihn-1+bi)\*MERGEFORMAT(2)on=σ(Woxn+Uohn-1+bo)\*MERGEFORMAT(3)其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;为哈达玛(Hadamard)积运算符号;在LAS的编码器中,使用双向长短时记忆网络(BidirectionalLong-ShortTermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;同时使用非线性激活可以得到最终的隐向量N个时间步的输出序列共同组成上下文相关的高层语义特征在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率。对于解码器输出的中间层语义特征H=(h1,h2,…,hu,…,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;si=LSTM(si-1,yi-1,ci-1)\*MERGEFORMAT(11)P(yi|x,y<i)=MLP(si,ci)\*MERGEFORMAT(12);S2,常用大规模标准普通话语音模型训练。本专利技术构建的LAS模型本文档来自技高网
...

【技术保护点】
1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤,所述端到端语音识别模型LAS的构建;/n根据少量重口音数据的声学特点;/n设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。/n

【技术特征摘要】
1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤,所述端到端语音识别模型LAS的构建;
根据少量重口音数据的声学特点;
设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。


2.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成;
其中,所述编码器模块用于学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;
所述注意力模块用于学习编码器模块和解码器模块之间的关联度;解码器模块对输入的高层语义特征进行解码,再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。


3.根据权利要求2所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,常用大规模普通话语音识别模型的训练;
首先,使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练,得到普通话数据下的通用端到端语音识别模型。


4.根据权利要求3所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,少量重口音语音数据下的模型优化;
针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。


5.根据权利要求4所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,少量重口音数据下的模型训练;
首先,冻结编码器模块的模型参数,即固定编码器模块在普通话语料下训练得到的模型参数;
其次,使用少量重口音数据对注意力模块和解码器模块进行优化,即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调,使其适应重口音语音特征的空间分布;
最后,训练得到少量重口音数据下的端到端语音转文本模型。


6.根据权利要求5所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,重口音场景下的语音解码;
首先,使用束搜索解码技术对重口音语音识别模型进行解码搜索,得到声学模型分数;
然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;
最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。


7.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤:
S1,所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectionalLong-ShortTermMemory,pBLSTM)构成。对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-ShortTermMemory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,…,hn,…,hN);
fn=σ(Wfxn+Ufhn-1+bf)\*MERGEFORMAT(1)
in=σ(Wixn+Uihn-1+bi)\*MERGEFORMAT(2)
on=σ(Woxn+Uohn-1+bo)\*MERGEFORMAT(3)






其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时...

【专利技术属性】
技术研发人员:赵雨嫣
申请(专利权)人:南京迪港科技有限责任公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1