一种改进的延时神经网络声学模型制造技术

技术编号：20007026 阅读：50 留言：0更新日期：2019-01-05 18:39

本发明专利技术属于语音识别技术领域，涉及一种改进的延时神经网络声学模型，包括：搭建基础TDNN网络；在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络；针对改进后的TDNN网络进行训练，得到最终的声学模型。注意力模块由一个仿射变换和一个加权函数组成，以前一隐藏层的输出作为输入，提取对输入的特征权重值，用提取到的权重值为原输入特征加权，得到加权后的特征。本发明专利技术在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下，通过多层次地为神经网络隐藏层特征加权，有效对层间特征的相对重要性进行显式建模，提高了TDNN声学模型的性能，从而提高了语音识别系统整体性能。

An Improved Acoustic Model of Delayed Neural Network

The invention belongs to the field of speech recognition technology, and relates to an improved delay neural network acoustic model, which includes: building a basic TDNN network; adding attention module between two adjacent hidden layers to obtain an improved TDNN network; and training the improved TDNN network to obtain the final acoustic model. Attention module consists of an affine transformation and a weighting function. The output of the previous hidden layer is used as input to extract the eigenvalues of the input, and the weights of the extracted eigenvalues are used to weigh the original input eigenvalues to obtain the weighted features. Considering the factors of model modeling ability, context information extraction ability and model size, the method can effectively model the relative importance of interlayer features by weighting the hidden layer features of the neural network at multiple levels, and improve the performance of TDNN acoustic model, thereby improving the overall performance of the speech recognition system.

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的延时神经网络声学模型
本专利技术属于语音识别
，涉及一种延时神经网络声学模型。
技术介绍
从上世纪50年代世界第一个语音识别系统诞生以来，到21世纪的前十年间，语音识别的核心枝术经历了从模板匹配到建立统计模型的逐渐演变。在语音识别领域中最经典至今仍具有重大意义的是隐马尔科夫模型(HiddenMarkovModel，HMM)和混合高斯模型(GaussianMixtureModel,GMM)相结合的方法，即用隐马尔科夫模型来对语音信号进行动态建模，描述发音状态的时域跳转，用混合高斯模型来对各发音状态进行特征分布拟合，因为这种方法很好地利用了语音信号的短时平稳特性，所以在过去的几十年间成为语音识别中声学建模的核心技术。自2009年以来，机器学习领域深度学习被引入到语音识别声学模型训练，比起上述的HMM-GMM技术，在众多真实世界的大词汇量语音识别任务中，深度学习语音识别声学模型都使得识别错误率降低了30％甚至更多，这是因为深度神经网络(DeepNeuralNetworks,DNN)具有更强大的非线性表达能力，所以用它取代混合高斯模型对发音状态进行特征分布拟合，可以使得声学模型的性能更优。一个完整的语音识别系统可以由以下几个部分组成：前端处理、声学模型、语言模型和解码器，声学模型对整体性能有着举足轻重的影响。提升声学模型的识别性能一方面要考虑模型的建模能力、性能以及模型对上下文信息的提取能力，另一方面要考虑模型的计算复杂度和模型的大小，因为这些会影响系统的解码速度和相关的硬件资源需求。基于深度学习的发展，延时深度神经网络模型(TDNN)被应用到声学...

【技术保护点】
1.一种改进的延时神经网络声学模型，其特征在于，包括：a、搭建基础TDNN网络；基础TDNN网络包含：输入层、隐藏层和输出层，其中隐藏层设有若干层，并且在隐藏层实行同层参数共享和跳帧采样；b、在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络；c、针对改进后的TDNN网络进行训练，得到最终的声学模型。

【技术特征摘要】
1.一种改进的延时神经网络声学模型，其特征在于，包括：a、搭建基础TDNN网络；基础TDNN网络包含：输入层、隐藏层和输出层，其中隐藏层设有若干层，并且在隐藏层实行同层参数共享和跳帧采样；b、在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络；c、针对改进后的TDNN网络进行训练，得到最终的声学模型。2.根据权利要求1所述的延时神经网络声学模型，其特征在于，步骤b中注意力模块数学公式为：a(x)＝nonL(w·x)其中，x是注意力模块的输入，即前一层隐藏层的输出；y是注意力模块的输出，即下一层隐藏层的输入；表示逐元素相乘运算；w是模块用于进行仿射变换的参数矩阵，nonL是加权函数。3.根据权利要求2所述的延时神经网络声学模型，其特征在于，注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享...

【专利技术属性】
技术研发人员：陈凯斌，张伟彬，徐向民，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人