The invention belongs to the field of speech recognition technology, and relates to an improved delay neural network acoustic model, which includes: building a basic TDNN network; adding attention module between two adjacent hidden layers to obtain an improved TDNN network; and training the improved TDNN network to obtain the final acoustic model. Attention module consists of an affine transformation and a weighting function. The output of the previous hidden layer is used as input to extract the eigenvalues of the input, and the weights of the extracted eigenvalues are used to weigh the original input eigenvalues to obtain the weighted features. Considering the factors of model modeling ability, context information extraction ability and model size, the method can effectively model the relative importance of interlayer features by weighting the hidden layer features of the neural network at multiple levels, and improve the performance of TDNN acoustic model, thereby improving the overall performance of the speech recognition system.
【技术实现步骤摘要】
一种改进的延时神经网络声学模型
本专利技术属于语音识别
,涉及一种延时神经网络声学模型。
技术介绍
从上世纪50年代世界第一个语音识别系统诞生以来,到21世纪的前十年间,语音识别的核心枝术经历了从模板匹配到建立统计模型的逐渐演变。在语音识别领域中最经典至今仍具有重大意义的是隐马尔科夫模型(HiddenMarkovModel,HMM)和混合高斯模型(GaussianMixtureModel,GMM)相结合的方法,即用隐马尔科夫模型来对语音信号进行动态建模,描述发音状态的时域跳转,用混合高斯模型来对各发音状态进行特征分布拟合,因为这种方法很好地利用了语音信号的短时平稳特性,所以在过去的几十年间成为语音识别中声学建模的核心技术。自2009年以来,机器学习领域深度学习被引入到语音识别声学模型训练,比起上述的HMM-GMM技术,在众多真实世界的大词汇量语音识别任务中,深度学习语音识别声学模型都使得识别错误率降低了30%甚至更多,这是因为深度神经网络(DeepNeuralNetworks,DNN)具有更强大的非线性表达能力,所以用它取代混合高斯模型对发音状态进行特征分布拟合,可以使得声学模型的性能更优。一个完整的语音识别系统可以由以下几个部分组成:前端处理、声学模型、语言模型和解码器,声学模型对整体性能有着举足轻重的影响。提升声学模型的识别性能一方面要考虑模型的建模能力、性能以及模型对上下文信息的提取能力,另一方面要考虑模型的计算复杂度和模型的大小,因为这些会影响系统的解码速度和相关的硬件资源需求。基于深度学习的发展,延时深度神经网络模型(TDNN)被应用到声学 ...
【技术保护点】
1.一种改进的延时神经网络声学模型,其特征在于,包括:a、搭建基础TDNN网络;基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样;b、在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;c、针对改进后的TDNN网络进行训练,得到最终的声学模型。
【技术特征摘要】
1.一种改进的延时神经网络声学模型,其特征在于,包括:a、搭建基础TDNN网络;基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样;b、在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;c、针对改进后的TDNN网络进行训练,得到最终的声学模型。2.根据权利要求1所述的延时神经网络声学模型,其特征在于,步骤b中注意力模块数学公式为:a(x)=nonL(w·x)其中,x是注意力模块的输入,即前一层隐藏层的输出;y是注意力模块的输出,即下一层隐藏层的输入;表示逐元素相乘运算;w是模块用于进行仿射变换的参数矩阵,nonL是加权函数。3.根据权利要求2所述的延时神经网络声学模型,其特征在于,注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享...
【专利技术属性】
技术研发人员:陈凯斌,张伟彬,徐向民,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。