The present disclosure provides an adaptive training method for acoustic models, including: (1) extracting speech features and using them as input training and generating seed models to obtain objective functions; (2) adjusting the network structure of seed models by adding a linear layer; and (2) adding a linear layer on the basis of the objective function. Add the KL divergence regularization term; train the linear layer, and re-estimate the weight and offset of the hidden linear layer using the back propagation algorithm; and 5, train and output the adaptive model. Because LHT can map scene data and KL divergence can reduce the over-fitting phenomenon, it can ensure that in the case of less adaptive data, it can reduce the over-fitting phenomenon in the process of training neural network, and improve the recognition rate of scene data.
【技术实现步骤摘要】
一种声学模型的自适应训练方法及系统
本公开涉及语音识别领域,尤其涉及一种声学模型的自适应训练方法及系统。
技术介绍
自动语音识别是人工智能应用的一个重要方向,并发展成为一个具有广阔前景的新兴高技术产业。最近几年来,随着智能家居及车载导航等产业的兴起,远场语音识别技术受到了热切的关注。远场语音识别系统通常包含前端信号处理与后端语音识别模块,前端部分旨在通过语音增强的手段,包括解混响、波束成形等方法来将含有噪声和混响的语音尽可能的处理为“干净”的语音。而后端部分与一般的语音识别系统相同,目的在于将处理后“干净”的语音识别为文字。为了得到更好的识别效果,后端的语音识别需要与前端降噪算法进行匹配。目前,大部分技术供应商的语音识别引擎主要是利用手机上收集的语音进行训练的,因此只适用于近讲的情况。为了解决远场语音与近场模型不匹配的问题,就需要用远场的语音数据来训练声学模型。针对特定的应用场景而言,获取远场语音数据的成本通常很高,这就需要利用少量数据的声学模型自适应技术来提升识别准确率。目前针对DNN/HMM声学模型的自适应技术包括LIT(LinearInputTransfor ...
【技术保护点】
1.一种声学模型的自适应训练方法,包括:步骤S1,进行语音特征提取,并将其作为输入训练并生成种子模型,得到目标函数;步骤S2,对种子模型的网络结构进行调整,加入线性层;步骤S3,在目标函数的基础上,添加KL散度正则项;步骤S4,训练线性层,重新利用反向传播算法估计隐线性层的权重和偏移;步骤S5,训练完成,输出自适应模型。
【技术特征摘要】
1.一种声学模型的自适应训练方法,包括:步骤S1,进行语音特征提取,并将其作为输入训练并生成种子模型,得到目标函数;步骤S2,对种子模型的网络结构进行调整,加入线性层;步骤S3,在目标函数的基础上,添加KL散度正则项;步骤S4,训练线性层,重新利用反向传播算法估计隐线性层的权重和偏移;步骤S5,训练完成,输出自适应模型。2.根据权利要求1所述的自适应训练方法,其中,所述步骤S2包括:在得到种子模型以后,在第一个隐层的后面加入隐线性层,对该种子模型的网络结构进行调整。3.根据权利要求2所述的自适应训练方法,其中,在加入隐线性层时,将该隐线性层的权重初始化为单位矩阵以及偏移初始化为零。4.根据权利要求3所述的自适应训练方法,其中,在加入线性层后,自适应层的权重Wa和偏移公式Ba如下:Wa=WLHN×WSIBa=BSI+BLHN×WSI其中,WLHN和BLHN是隐线性层的权重和偏移,WSI和BSI是跟随在线性层后面的层的权重和偏移。5.根据权利要求4所述的自适应训练方法,其中,所述步骤S1包括:从原始语音及自适应语音数据中,提取梅尔标度滤波器组特征,并提取梅尔频谱特征,将梅尔频谱作为原始语音的特征。6.根据权利要求4所述的自适应训练方法,其中,所述步骤S1还包括:利用原始语音的特征作为输入,以负交叉熵为目标函数,训练得到种子模型的参数,其中,负交叉熵的公式如下:其中,N是训练集中的样本个数,S是神经网络的输出个数,p(y|xt)是后验概率,是对齐目标概率。7.根据权利要求6所述的自适应训练方法,其中,所述步骤S3包括:以负交叉熵作为目标函数,加入KL散度正则项,并删除与模...
【专利技术属性】
技术研发人员:谭应伟,陈孝良,冯大航,苏少炜,常乐,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。