一种改进的延时神经网络声学模型制造技术

技术编号:20007026 阅读:50 留言:0更新日期:2019-01-05 18:39
本发明专利技术属于语音识别技术领域,涉及一种改进的延时神经网络声学模型,包括:搭建基础TDNN网络;在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;针对改进后的TDNN网络进行训练,得到最终的声学模型。注意力模块由一个仿射变换和一个加权函数组成,以前一隐藏层的输出作为输入,提取对输入的特征权重值,用提取到的权重值为原输入特征加权,得到加权后的特征。本发明专利技术在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过多层次地为神经网络隐藏层特征加权,有效对层间特征的相对重要性进行显式建模,提高了TDNN声学模型的性能,从而提高了语音识别系统整体性能。

An Improved Acoustic Model of Delayed Neural Network

The invention belongs to the field of speech recognition technology, and relates to an improved delay neural network acoustic model, which includes: building a basic TDNN network; adding attention module between two adjacent hidden layers to obtain an improved TDNN network; and training the improved TDNN network to obtain the final acoustic model. Attention module consists of an affine transformation and a weighting function. The output of the previous hidden layer is used as input to extract the eigenvalues of the input, and the weights of the extracted eigenvalues are used to weigh the original input eigenvalues to obtain the weighted features. Considering the factors of model modeling ability, context information extraction ability and model size, the method can effectively model the relative importance of interlayer features by weighting the hidden layer features of the neural network at multiple levels, and improve the performance of TDNN acoustic model, thereby improving the overall performance of the speech recognition system.

【技术实现步骤摘要】
一种改进的延时神经网络声学模型
本专利技术属于语音识别
,涉及一种延时神经网络声学模型。
技术介绍
从上世纪50年代世界第一个语音识别系统诞生以来,到21世纪的前十年间,语音识别的核心枝术经历了从模板匹配到建立统计模型的逐渐演变。在语音识别领域中最经典至今仍具有重大意义的是隐马尔科夫模型(HiddenMarkovModel,HMM)和混合高斯模型(GaussianMixtureModel,GMM)相结合的方法,即用隐马尔科夫模型来对语音信号进行动态建模,描述发音状态的时域跳转,用混合高斯模型来对各发音状态进行特征分布拟合,因为这种方法很好地利用了语音信号的短时平稳特性,所以在过去的几十年间成为语音识别中声学建模的核心技术。自2009年以来,机器学习领域深度学习被引入到语音识别声学模型训练,比起上述的HMM-GMM技术,在众多真实世界的大词汇量语音识别任务中,深度学习语音识别声学模型都使得识别错误率降低了30%甚至更多,这是因为深度神经网络(DeepNeuralNetworks,DNN)具有更强大的非线性表达能力,所以用它取代混合高斯模型对发音状态进行特征分布拟合,可以使得声学模型的性能更优。一个完整的语音识别系统可以由以下几个部分组成:前端处理、声学模型、语言模型和解码器,声学模型对整体性能有着举足轻重的影响。提升声学模型的识别性能一方面要考虑模型的建模能力、性能以及模型对上下文信息的提取能力,另一方面要考虑模型的计算复杂度和模型的大小,因为这些会影响系统的解码速度和相关的硬件资源需求。基于深度学习的发展,延时深度神经网络模型(TDNN)被应用到声学建模中,并取得了好的效果,但TDNN模型在层间特征相对重要性方面并无进行显式建模,所以从这方面来说,基于延时神经网络的声学模型性能有待提升。
技术实现思路
针对现有技术的不足,本专利技术提供一种改进的延时神经网络(TimeDelayNeuralNetworks,TDNN)声学模型,在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过多层次地为神经网络隐藏层特征加权,有效对层间特征的相对重要性进行显式建模,提高声学模型的性能,从而提高语音识别系统整体性能。一种改进的延时神经网络(TDNN)声学模型,包括:a、搭建基础TDNN网络;基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样;b、在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;c、针对改进后的TDNN网络进行训练,得到最终的声学模型。优选地,步骤b注意力模块数学公式表达如下:a(x)=nonL(w·x)其中,x是注意力模块的输入,即前一层隐藏层的输出;y是注意力模块的输出,即下一层隐藏层的输入;表示逐元素相乘运算;w是模块用于进行仿射变换的参数矩阵,nonL是加权函数。与现有技术相比,本专利技术具有如下优点与有益效果:1、注意力模块中仿射变换的参数采取和TDNN一样的同层共享机制,注意力模块中的仿射变换和原TDNN的跳帧同步,从整个模型来看,参数增加量不大,对整个模型大小影响不大。2、注意力模型中的加权函数能有效对层间特征的相对重要性进行显式建模,强化模型的建模能力。3、本专利技术综合考虑模型大小、计算复杂度和TDNN本身对上下文信息的有效建模,最终相比于原始的TDNN,使得声学模型在各个数据集上取得一定的性能提升。附图说明图1是本专利技术注意力模块的结构示意图;图2是本专利技术一个实施例中改进的TDNN架构图;图3是本专利技术一个实施例中特征加权效果图。具体实施方式下面结合附图与具体实施方式对本专利技术作进一步详细的描述。一种改进的延时神经网络(TDNN)声学模型,在TDNN的若干个隐藏层间加上一个特定模块(又称注意力层、attentionlayer或注意力模块),利用特定模块对原输入特征进行加权,并把加权后的特征送往下一隐藏层。注意力模块由一个仿射变换和一个加权函数组成,以前一隐层的输出作为输入,提取对输入的特征权重值,用提取到的权重值为原输入特征加权(逐元素相乘运算),得到加权后的特征。注意力模块可有效与TDNN相结合,在不引入过多参数和额外计算量的前提下,有效地提高TDNN声学模型的性能,进而提高语音识别的准确率。本实施例中,改进的延时神经网络(TDNN)声学模型,如图1-3所示,具体可分以下几步:S1、对相关的语音数据集提取梅尔倒谱系数(MFCC)作为声学特征,并逐步训练更优的HMM-GMM模型,为延时神经网络训练提供相对准确的帧级标注。按训练的先后顺序分别是:单音素模型、三音素模型、带线性判别分析和最大似然线性回归的三音素模型、带说话人自适应的三音素模型。这是为了对训练数据进行强制对齐来给后面的延时神经网络训练提供相对准确的帧级标注(即每一帧语音对应的三音素发音状态,或称隐马尔科夫模型的状态)。S2、搭建基础TDNN网络。基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样。S3、在S2的基础TDNN网络的基础上,在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络。在深度神经网络的层次结构中,每一层都可看作是对输入特征的特征映射,层中的每一个节点单元代表一个特征,而每一层中的每一个特征的重要性不一样,有的是重要的关键特征,而有的却无关紧要。本专利技术中所添加的注意力模块如图1所示,是为了在各层特征往下一层输送之前,显式地计算每一个特征的重要性,根据重要性为特征加权后再输入到下一层。注意力模块用数学公式表达如下:a(x)=nonL(w·x)其中,x是注意力模块的输入,即前一层隐藏层的输出;y是注意力模块的输出,即下一层隐藏层的输入;表示逐元素相乘运算;w是模块用于进行仿射变换的参数矩阵,nonL是加权函数。注意力模块具有以下特点:1)注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享机制;2)注意力模块中仿射变换采用和基础TDNN网络一样的跳帧采样的机制;3)注意力模块中加权函数可以采用多种函数来获取权重值;4)采用逐元素相乘加权的形式来得到体现特征间相对重要性的加权特征。加权函数可使用在深度学习中常用的激活函数及相关的组合或简单优化,比如identity、sigmoid、tanh、relu、log-sigmoid、relu+renorm、softmax、log-softmax等。本实施例中,加权函数选用log-softmax。其中,softmax可以在提取权重的过程中放大特征间的差异,并由其归一化的特性使得它可以充分地考虑各个特征间的联系,而不是单独地去看待每一个特征;另外,log函数的使用则解决了在这个问题中softmax本身带来的数值问题,从而有效地给出特征间的相对重要性。因而,本实施例中,log-softmax函数是优选的加权函数。S4、针对改进后的TDNN网络进行训练,得到最终的声学模型。改进后的TDNN网络架构如图2所示,本实施例中,对改进后的TDNN网络进行训练,具体为:对改进后的TDNN网络进行初始化,改进后的TDNN网络的输入为步骤S1中采集的包含上下文若干帧的语音特征(MFCC),输出为当前输入对应的三音素发音状态,接本文档来自技高网
...

【技术保护点】
1.一种改进的延时神经网络声学模型,其特征在于,包括:a、搭建基础TDNN网络;基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样;b、在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;c、针对改进后的TDNN网络进行训练,得到最终的声学模型。

【技术特征摘要】
1.一种改进的延时神经网络声学模型,其特征在于,包括:a、搭建基础TDNN网络;基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样;b、在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;c、针对改进后的TDNN网络进行训练,得到最终的声学模型。2.根据权利要求1所述的延时神经网络声学模型,其特征在于,步骤b中注意力模块数学公式为:a(x)=nonL(w·x)其中,x是注意力模块的输入,即前一层隐藏层的输出;y是注意力模块的输出,即下一层隐藏层的输入;表示逐元素相乘运算;w是模块用于进行仿射变换的参数矩阵,nonL是加权函数。3.根据权利要求2所述的延时神经网络声学模型,其特征在于,注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享...

【专利技术属性】
技术研发人员:陈凯斌张伟彬徐向民
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1