【技术实现步骤摘要】
一种多语言训练方法、装置及存储介质
[0001]本专利技术涉及语言识别
,特别涉及一种多语言训练方法、装置及存储介质。
技术介绍
[0002]训练一个基于DNN(深度神经网络,Deep Neural Network)的语音识别模型需要大量的数据,而对世界上7100多种语言来说,只有很少一部分的语言可以获得足够多的标注训练数据,其他低资源语种的识别就成为了一个挑战。
[0003]为了在训练数据不足的情况下提高低资源语言的识别效果,近年来的一些工作引入了多语言(multilingual)、跨语言(crosslingual)的方法。通过借助别的语言进行训练,利用语言间的相似特征来帮助目标语言的学习,能有效缓解目标语言数据不足的问题。
[0004]multilingual训练一般是指AM(声学模型,AcousticModel)是由多个语言共同训练出的,因为不同语种之间可能有相似的发音特征,而LM(语言模型,LanguageModel)就比较有语言独立性,不同语言的语法规则差别很大,不适合做多语言训练的对象。也有 ...
【技术保护点】
【技术特征摘要】
1.一种多语言训练方法,其特征在于,包括:通过神经网络获取音韵特征后,转化为以矢量编码的音素嵌入矢量,其中,将音韵特征编码为音韵矢量;获取声谱后,通过声学模型深度神经网络DNN提取声学特征;将音素嵌入矢量与声学特征进行内积后计算出音素的后验概率。2.如权利要求1所述的方法,其特征在于,将音韵特征编码为音韵矢量,包括:将各语种的每个国际音标IPA音素表示为一个24维的音韵特征,每一维代表某个音韵特征;分别用2bit的1、0矢量表示每个音韵特征的+、
‑
、0,用3bit对每个音韵特征的符号<blk>、<spn>、<nsn>编码。3.如权利要求1所述的方法,其特征在于,将音素嵌入矢量与声学特征进行内积后计算出音素的后验概率,包括:将第i个音素的音韵矢量p
i
转换为音素嵌入矢量e
i
,维度等于DNN输出的维度H,在第t帧,声学模型DNN的输出为将e
i
与声学特征h
t
做内积计算logits,z
t,i
代表第t帧时第i个音素对应的logit:4.如权利要求3所述的方法,其特征在于,按以下方式将第i个音素的音韵矢量p
i
转换为音素嵌入矢量e
i
:用线性矩阵A来作用p
i
,e
i
=Ap
i
#或,使用多层神经网络进行音韵转换:e
i
=A2σ(A1p
i
)#其中A1、A2是线性矩阵,σ(
·
)代表非线性激活函数。5.如权利要求1所述的方法,其特征在于,进一步包括:使用Phonetisaurus工具包实现字位到音位转换字位到音位转换G2P,为各语言生成IPA符号的发音词典。6.如权利要求1所述的方法,其特征在于,进一步包括:将多种语言的训练集、与开发集进行混合并打乱,组成包含多语言的训练集和开发集;将多种语言G2P生成的发音词典进行融合,作为多语言训练时采用的词典。7.如权利要求6所述的方法,其特征在于,将音素嵌入矢量...
【专利技术属性】
技术研发人员:欧智坚,黄毅,朱程睿,冯俊兰,金镝,
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。