【技术实现步骤摘要】
语音识别中的小数据语音声学建模方法
本专利技术涉及电子行业信号处理
,具体涉及一种语音识别中的小数据语音声学建模方法。
技术介绍
语音交互是人机交互最为自然的一种方式,而语音识别又是语音交互中最重要的技术。近年来,随着深度学习技术在语音识别中的深入应用,语音识别技术取得了重大突破。众所周知,深度学习需要大量标注数据,对于普通话或英语来说,这些标注数据很容易获得,然而对于方言来说,很难获取到大量的标注数据,只能采集到少量标注数据。因此,对于建立标注数据量少的目标语种(如方言)的声学模型,采用常规的深度学习方法效果并不理想。目前,已有学者采用多语种训练技术训练具有大量标注数据的语种的瓶颈网络,再利用该瓶颈网络提取目标语种的瓶颈特征,然后将提取出的瓶颈特征用于辅助目标语种进行声学建模,这样可以从已有资源(如普通话或英语)中迁移知识来辅助目标语种进行建模,此种方法在一定程度上提高了目标语种的识别精度。但是,该方法目前仍然存在问题。依据上述方法提取出的瓶颈特征往往包含了大量语种相关的信息,这些语种相关的信息对目标语种的识别性能提升不明显,甚至会带来负迁移,导致目标语种 ...
【技术保护点】
1.一种语音识别中的小数据语音声学建模方法,其特征在于,所述声学建模方法包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将所述语种无关的瓶颈特征与所述目标语种的声学特征进行融合以获得融合特征;利用所述融合特征进行训练,以建立所述目标语种的声学模型。
【技术特征摘要】
1.一种语音识别中的小数据语音声学建模方法,其特征在于,所述声学建模方法包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将所述语种无关的瓶颈特征与所述目标语种的声学特征进行融合以获得融合特征;利用所述融合特征进行训练,以建立所述目标语种的声学模型。2.根据权利要求1所述的声学建模方法,其特征在于,在“对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型”的步骤之前,所述声学建模方法还包括:采集多语种以形成多语种语音数据库;基于所述多语种语音数据库提取所述多语种的声学特征。3.根据权利要求1所述的声学建模方法,其特征在于,训练所述多语种对抗的瓶颈网络模型的准则为多语种对抗训练,其损失函数表示为LAll,其公式表示为:LAll(θm,θa,θs)=LMul(θm,θs)+λLAdv(θa,θs);损失函数中模型参数的更新过程表示为:其中,LAll表示多语种对抗训练的损失函数,LMul表示多语种训练的损失函数,LAdv表示语种对抗判别器的损失函数,m表示语种的类别,θm表示只与语种m相关的模型参数,θa表示语种对抗判别器的模型参数,θs表示所有语种共享的隐层的模型参数,α表示瓶颈网络的学习速率,λ表示LAdv的权重,λ的取值范围为[0,1]。4.根据权利要求3所述的声学建模方法,其特征在于,所述多语种训练的损失函数LMul的公式表示为:所述语种对抗判别器的损失函数LAdv的公式表示为:其中,...
【专利技术属性】
技术研发人员:陶建华,易江燕,温正棋,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。