【技术实现步骤摘要】
一种基于音素对迭代融合的多语种音素识别方法
[0001]本专利技术涉及一种基于音素对迭代融合的多语种音素识别方法,属于音频信号处理
技术介绍
[0002]与传统的连续时间识别模型相比(如隐马尔可夫模型),深度学习神经网络技术依靠其自身优越的性能被广泛应用,其中采用连接时间分类CTC消除了语音序列与语音标签强制对齐的需求,在音素识别中取得较好的结果。音素识别是构建音素标签和音素特征向量之间的自动识别,采用语音学特征作音素识别的输入特征,始终未达到较好的识别结果,需要新型的区分性特征来提高音素分类区分辨识度。区别于语音识别,音素识别不关注语音的语义;区别于与说话人识别,音素识别与人类发音习惯音质与音色相关性较小,音素识别系统的准确度及扩展性在自动语音识别、语种识别等系统的开发上发挥着重要的作用,而素识别模型在实际应用中面临一系列的问题,尤其突出的是音素识别模型训练学习的资源问题、音素识别模型跨语种应用扩展性问题及音素识别模型对音素识别准确度问题。对音素进行聚类,构建融合的多语种音素识别模型可有效利用音素资源、增强模型扩 ...
【技术保护点】
【技术特征摘要】
1.一种基于音素对迭代融合的多语种音素识别方法,其特征在于:Step1:获取多个不同资源度的异语种音素语料,以直接获取的方式获取资源度较高的语料作为训练第一语言的主体语言音素集,以非IPA音素
‑
IPA音素字典编码方式间接获取的语料作为训练第二甚至更多语言的扩充语言音素集,以字素
‑
IPA音素字典编码方式间接获取的语料作为训练第三甚至更多语言的扩充语言音素集;Step2:基于Step1所获取的音素集,将以非IPA音素
‑
IPA音素字典编码方式获取的语料资源音素标签及以字素
‑
IPA音素字典编码方式获取的语料音素标签以语言学知识统一映射到第一语言的主体音素集音素音素标签表示;Step3:以人体声道发声为约束构造新型区分音素的特征,具体为:依据语音发声系统机理,基于Step2获得的以第一语言IPA音素标签映射的多语种音素集合,将所有音素细化语音类别为清音音素、鼻音浊音音素、非鼻音浊音音素,根据不同语音类别语音发声特点,构造新型具更有音素区分特性的特征;Step4:基于Step2得到的多语种音素集,缩减语种内已映射的IPA音素符号集,分别降低映射后的主体语言、第二语言及第三语言音素集总体音素符号集的规模;Step5:基于Step4所得到的已经缩减的多语种音素集,将直接获取的主体音素集作为初始集,结合间接获取的第二语种音素集做第一次迭代一级融合,融合完成形成的新集再与间接获取的第三语种音素集音素集第二次迭代二级融合,以此类推,获得更多语种的更多级的多语种音素集融合;Step6:采用连接时间分类网络CTC构建音素识别网络,实现可变长度多语种语音自动对齐的音素序列识别。2.根据权利要求1所述的基于音素对迭代融合的多语种音素识别方法,其特征在于,所述Step3具体为:构建表征单个音素的的区分性特征量,将音素划分为清音、鼻音浊音、非鼻音浊音三大类,结合声学特征MFCC及人体发音共振约束的音素高阶线性预测峰值频带特征构建新型音素区分性特征,T表示语音帧数,第n帧音素静态特性区分特征其中n=1,2,
…
T,F
n,0
表示第n帧的基频,F
n,...
【专利技术属性】
技术研发人员:龙华,苏树盟,邵玉斌,杜庆治,黄张衡,段云,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。