端到端语音转写模型的训练方法、系统、装置制造方法及图纸

技术编号:23100703 阅读:33 留言:0更新日期:2020-01-14 20:54
本发明专利技术属于电子信号处理技术领域,具体涉及一种端到端语音转写模型的训练方法、系统、装置,旨在解决端到端语音转写模型无法很好的学习语音数据的对齐信息的问题。本系统方法包括提取语音训练数据的特征,得到语音特征序列;通过GMM‑HMM模型对语音特征序列进行强制对齐,得到对齐标注,并对各帧语音特征进行拼接;基于拼接后的语音特征序列和文本标注训练数据,对端到端语音转写模型进行训练,得到预设词表中每个词的概率分布及负对数损失值;获取对齐损失值;将对齐损失值和负对数损失值进行加权平均,得到联合损失值,并通过后向传播算法更新模型的参数;迭代训练模型。本发明专利技术能够准确的学习语音数据的对齐信息。

Training method, system and device of end-to-end speech transcribing model

【技术实现步骤摘要】
端到端语音转写模型的训练方法、系统、装置
本专利技术属于电子信号处理
,具体涉及一种端到端语音转写模型的训练方法、系统、装置。
技术介绍
语音识别作为人机交互的入口,是人工智能领域中一个重要的研究方向。传统的语音识别方法一般使用基于高斯混合模型-隐马尔科夫模型的混合模型(GMM-HMM),整个系统存在很多部件,分别训练,性能难以满足需求。随着深度学习技术的在语音识别中的深入应用,端到端语音识别取得令人瞩目的成绩。尤其是最近提出的基于循环神经网络的端到端语音转写模型(RNNTransducerModel),不仅极大的简化了语音识别系统的步骤,提高了识别精度,而且能够进行流式的解码以应用于在线语音识别任务。但是端到端语音转写模型存在着训练困难,不能很好的学习到语音文本的对齐信息等问题。因此,本专利技术提出了一种端到端语音转写模型的训练方法。
技术实现思路
为了解决现有技术中的上述问题,即为了解决端到端语音转写模型无法很好的学习语音数据的对齐信息,导致语音识别精度低的问题,本专利技术第一方面,提出了一种端到端语音转写模型的训练方法,该方法包括:步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;步骤S200,通过GMM-HMM模型对所述语音特征序列进行强制对齐,得到帧级别的对齐标注,并对所述语音特征序列中各帧语音特征进行拼接处理;步骤S300,基于拼接处理后的语音特征序列和所述文本标注训练数据,通过端到端语音转写模型获取预设词表中每个词的概率分布;并根据所述概率分布通过前向-后向算法得到负对数损失值;步骤S400,基于所述对齐标注和所述概率分布,获取对齐损失值;步骤S500,对所述对齐损失值和所述负对数损失值进行加权平均,得到联合损失值,并根据所述联合损失值通过后向传播算法更新所述端到端语音转写模型的参数;步骤S600,循环执行步骤S300-S500,直至达到预设的训练结束条件,得到训练好的端到端语音转写模型。在一些优选的实施方式中,所述端到端语音转写模型基于长短时记忆网络构建,其包括声学编码器、语言预测网络、联合网络;所述声学编码器其结构为4层双向长短时记忆网络;所述语言预测网络其结构为两层单向长短时记忆网络;所述联合网络其结构为前馈神经网络。在一些优选的实施方式中,步骤S100中“提取所述语音训练数据的特征”,其方法为:所述特征为梅尔频率倒谱系数或梅尔滤波器组系数。在一些优选的实施方式中,步骤S200中“对所述语音特征序列中各帧语音特征进行拼接处理”,其方法为:获取所述语音特征序列中的第T帧语音特征的前三帧语音特征和后一帧语音特征,与其进行拼接;若第T-3帧语音特征、第T-2帧语音特征、第T-1帧语音特征、第T+1帧语音特征中任一帧语音特征不存在,则将其对应的位置填充为0。在一些优选的实施方式中,步骤S200和步骤S300之间还包括降采样处理步骤:对所述对齐标注和拼接处理后的语音特征序列中的语音特征进行降采样处理;降采样处理后的每帧语音特征和对齐标注长度相等。在一些优选的实施方式中,所述负对数损失值,其计算方法为:L1=-lnp(y|x)其中,L1为负对数损失值,y为文本标注训练数据,x为语音特征,p()表示概率分布。在一些优选的实施方式中,所述对齐损失值,其计算方法为:其中,L2为对齐损失值,T是语音特征的帧数,U是文本标注训练数据的长度,所述文本标注数据中每个字定义为标记,K是预设词表中词的个数,t是表示当前解码位于的帧数,u是端到端语音转写模型正在解码第u个语言标记,k是预测结果在预设词表中的位置,是端到端语音转写模型根据第t帧声学编码器的状态和第u个语言预测网络状态预测出空标记的概率,表示预测出非空标记的概率,ct,u,k是端到端语音转写模型在第t帧第u个文本标记的第k个标记处的对齐标注,取值为0或者1,p(k|t,u)为端到端语音转写模型根据第t帧声学编码器的状态和第u个语言预测网络状态预测出预设词表中第k个标记的概率。本专利技术的第二方面,提出了一种端到端语音转写模型的训练系统,该系统包括提取语音特征模块、对齐拼接模块、监督训练模块、计算对齐损失模块、更新模型参数模块、循环模块;所述提取语音特征模块,配置为获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;所述对齐拼接模块,配置为通过GMM-HMM模型对所述语音特征序列进行强制对齐,得到帧级别的对齐标注,并对所述语音特征序列中各帧语音特征进行拼接处理;所述监督训练模块,配置为基于拼接处理后的语音特征序列和所述文本标注训练数据,通过端到端语音转写模型获取预设词表中每个词的概率分布;并根据所述概率分布通过前向-后向算法得到负对数损失值;所述计算对齐损失模块,配置为基于所述对齐标注和所述概率分布,获取对齐损失值;所述更新模型参数模块,配置为对所述对齐损失值和所述负对数损失值进行加权平均,得到联合损失值,并根据所述联合损失值通过后向传播算法更新所述端到端语音转写模型的参数;所述循环模块,配置为循环执行监督训练模块-更新模型参数模块,直至达到预设的训练结束条件,得到训练好的端到端语音转写模型。本专利技术的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的端到端语音转写模型的训练方法。本专利技术的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的端到端语音转写模型的训练方法。本专利技术的有益效果:本专利技术能够准确的学习语音数据的对齐信息,提高语音识别的精度。在本专利技术中通过GMM-HMM对语音数据进行强制对齐获得特征与状态的对齐关系,并通过语音特征的拼接弥补时序信息利用不充分的缺陷。在训练过程中,加入了对齐损失函数,对端到端语音转写模型进行正则化,使得端到端语音转写模型能够准确的学习语音文本的对齐信息,加速了模型收敛,提高了模型的性能表现。附图说明通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。图1是本专利技术一种实施例的端到端语音转写模型的训练方法的流程示意图;图2是本专利技术一种实施例的端到端语音转写模型的训练系统的框架示意图;图3是本专利技术一种实施例的端到端语音转写模型的结构示例图;图4是本专利技术一种实施例的端到端语音转写模型的训练方法中对齐损失计算的示例图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文档来自技高网...

【技术保护点】
1.一种端到端语音转写模型的训练方法,其特征在于,该方法包括以下步骤:/n步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;/n步骤S200,通过GMM-HMM模型对所述语音特征序列进行强制对齐,得到帧级别的对齐标注,并对所述语音特征序列中各帧语音特征进行拼接处理;/n步骤S300,基于拼接处理后的语音特征序列和所述文本标注训练数据,通过端到端语音转写模型获取预设词表中每个词的概率分布;并根据所述概率分布通过前向-后向算法得到负对数损失值;/n步骤S400,基于所述对齐标注和所述概率分布,获取对齐损失值;/n步骤S500,对所述对齐损失值和所述负对数损失值进行加权平均,得到联合损失值,并根据所述联合损失值通过后向传播算法更新所述端到端语音转写模型的参数;/n步骤S600,循环执行步骤S300-S500,直至达到预设的训练结束条件,得到训练好的端到端语音转写模型。/n

【技术特征摘要】
1.一种端到端语音转写模型的训练方法,其特征在于,该方法包括以下步骤:
步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;
步骤S200,通过GMM-HMM模型对所述语音特征序列进行强制对齐,得到帧级别的对齐标注,并对所述语音特征序列中各帧语音特征进行拼接处理;
步骤S300,基于拼接处理后的语音特征序列和所述文本标注训练数据,通过端到端语音转写模型获取预设词表中每个词的概率分布;并根据所述概率分布通过前向-后向算法得到负对数损失值;
步骤S400,基于所述对齐标注和所述概率分布,获取对齐损失值;
步骤S500,对所述对齐损失值和所述负对数损失值进行加权平均,得到联合损失值,并根据所述联合损失值通过后向传播算法更新所述端到端语音转写模型的参数;
步骤S600,循环执行步骤S300-S500,直至达到预设的训练结束条件,得到训练好的端到端语音转写模型。


2.根据权利要求1所述的端到端语音转写模型的训练方法,其特征在于,所述端到端语音转写模型基于长短时记忆网络构建,其包括声学编码器、语言预测网络、联合网络;所述声学编码器其结构为4层双向长短时记忆网络;所述语言预测网络其结构为两层单向长短时记忆网络;所述联合网络其结构为前馈神经网络。


3.根据权利要求1所述的端到端语音转写模型的训练方法,其特征在于,步骤S100中“提取所述语音训练数据的特征”,其方法为:所述特征为梅尔频率倒谱系数或梅尔滤波器组系数。


4.根据权利要求1所述的端到端语音转写模型的训练方法,其特征在于,步骤S200中“对所述语音特征序列中各帧语音特征进行拼接处理”,其方法为:获取所述语音特征序列中的第T帧语音特征的前三帧语音特征和后一帧语音特征,与其进行拼接;若第T-3帧语音特征、第T-2帧语音特征、第T-1帧语音特征、第T+1帧语音特征中任一帧语音特征不存在,则将其对应的位置填充为0。


5.根据权利要求1-4任一项所述的端到端语音转写模型的训练方法,其特征在于,步骤S200和步骤S300之间还包括降采样处理步骤:
对所述对齐标注和拼接处理后的语音特征序列中的语音特征进行降采样处理;降采样处理后的每帧语音特征和对齐标注长度相等。


6.根据权利要求1所述的端到端语音转写模型的训练方法,其特征在于,所述负对数损失值,其计算方法为:
L1=-lnp(y|x)
其中,L1为负对数损失值,y为文本...

【专利技术属性】
技术研发人员:陶建华田正坤易江燕
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1