一种神经网络声学模型压缩及语音识别方法技术

技术编号：15642595 阅读：340 留言：0更新日期：2017-06-16 16:06

本发明专利技术提供了一种神经网络声学模型的压缩方法，所述方法包括：将神经网络声学模型的输出层权值矩阵W的行向量按照指定的维数划分为若干个子向量；对若干个子向量进行一级矢量量化，获得一级码本，用一级码本向量代替矩阵W的子向量，得到矩阵W

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络声学模型压缩及语音识别方法
本专利技术涉及语音识别领域，特别涉及一种神经网络声学模型压缩及语音识别方法。
技术介绍
在语音识别领域，利用深层神经网络(DeepNeuralNetwork，DNN)进行声学建模取得了很好的效果。DNN的深层结构使得模型具有很强的学习能力，同时导致模型参数量巨大，因此要在计算能力偏弱的移动设备上应用DNN进行语音识别的声学建模十分困难：主要面临着存储需求大和计算复杂度高的问题。基于矢量量化的方法被用来对DNN模型进行压缩，从而节省储存空间和计算量。其原理如下：对于DNN的权值矩阵将其每一个行向量都分裂为个维度为d的子向量：其中是权值矩阵W第i行的第j个子向量，上标T表示转置，之后，使用矢量量化的方法将全部子向量量化为K个码本向量。这样，原本M×N的矩阵，就可以用一个包含了K个d维向量的码本表示，另外还需要(log2K)×(MJ)个比特来记录每个子向量在码本中的索引。该方法同时可以节省计算量，在DNN的前向计算中，由于处于同一列的子向量都是与相同的激活向量相乘，如果处于同一列的子向量中存在若干个子向量被量化为同一个码本向量，那么这些子向量与激活向量的相乘结果就可以共享，从而减少了计算次数。利用矢量量化压缩DNN的方法会导致DNN的性能受到影响，其受影响的程度依赖于矢量量化的量化误差，然而传统的矢量量化只使用单级码本，当码本较小(即码本中的码本向量数量较少)时，量化误差比较高，为了降低量化误差，不得不呈指数地提高码本规模，这样就会使计算量大大增加，使得该方法失去了节省空间和计算的意义。
技术实现思路
本专利技术的目的在于克服...
一种神经网络声学模型压缩及语音识别方法

【技术保护点】
一种神经网络声学模型的压缩方法，所述方法包括：将神经网络声学模型的输出层权值矩阵W的行向量按照指定的维数划分为若干个子向量；对若干个子向量进行一级矢量量化，获得一级码本，用一级码本向量代替矩阵W的子向量，得到矩阵W

【技术特征摘要】
1.一种神经网络声学模型的压缩方法，所述方法包括：将神经网络声学模型的输出层权值矩阵W的行向量按照指定的维数划分为若干个子向量；对若干个子向量进行一级矢量量化，获得一级码本，用一级码本向量代替矩阵W的子向量，得到矩阵W*；利用矩阵W和W*，计算残差矩阵R，并对R的向量进行二级矢量量化；获得二级码本，用二级码本向量代替矩阵R的向量，得到矩阵R*；最后用矩阵W*和R*表示权值矩阵W。2.根据权利要求1所述的神经网络声学模型的压缩方法，其特征在于，所述方法具体包括：步骤S1)将神经网络声学模型的输出层权值矩阵W的行向量分裂成维数为d的子向量：其中，W为M×N矩阵；步骤S2)对步骤S1)得到的子向量进行一级矢量量化，获得一级码本，用一级码本向量代替矩阵W的子向量，得到矩阵W*；对步骤S1)得到的子向量进行一级矢量量化，得到一级码本该码本共含有K1个码本向量，设权值矩阵W第i行的第j个子向量所对应的一级码本向量在C(1)中的索引值为id(1)(i,j)∈{1,…,K1}，对应的码本向量为用码本向量代替矩阵W的子向量得到矩阵W*：步骤S3)利用矩阵W和W*，计算残差矩阵R，并对R的向量进行二级矢量量化；获得二级码本，用二级码本向量代替矩阵R的向量，得到矩阵R*；计算残差矩阵R：其中，对向量进行二级矢量量化，得到二级码本该码本共含有K2个码本向量，设权值矩阵R第i行的第j个子向量所对应...

【专利技术属性】
技术研发人员：张鹏远，邢安昊，潘接林，颜永红，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人