【技术实现步骤摘要】
一种方言发音标注方法、语言识别方法及相关装置
本专利技术涉及语音处理
,尤其涉及一种方言发音标注方法、语言识别方法及相关装置。
技术介绍
语言是人类实现信息交互最直接和最自然的方式之一,随着地域的不同,人们使用的方言也各有差异。而随着社会发展和人工智能的普及,对有关方言的语音识别具有很大挑战。其中,发音词典是语音识别的基础,一些地区方言在发音上与普通话相比会出现口音的变化,例如:普通话“干啥子<gànsházǐ>”和四川话“干啥子<gànshǎzǐ>”,“啥”字发音由2声变成了3声,也有可能一个词组在方言发音时会出现连读、失音的现象,例如:普通话“不知道<buzhidao>”在东北话中就变成了“不道<budao>”,而这些方言发音在发音词典上并没有标注。目前,方言词的发音标注主要是人工标注,方言词典的构建也依赖于人工构建,对于多发音的词汇也是靠人工总结添加,而不同的方言发音可能会更加多变,纯靠人工添加标注会费时费力,效率低下。
技术实现思路
< ...
【技术保护点】
1.一种方言发音标注方法,其特征在于,包括:/n对获取的方言训练集进行音频-文本对齐,得到所述方言训练集中每个词的词边界,其中,所述每个词的词边界为该词在所述方言训练集中的音频起始帧和音频结束帧,所述方言训练集包括方言语音和对应的文本;/n利用普通话语音识别模型对所述方言训练集进行语音-音素解码,得到所述方言训练集中每条语音的发音音素序列;/n根据解码得到的所述方言训练集中每条语音的发音音素序列,和所述方言训练集中每个词的词边界,确定所述方言训练集中每个词的发音音素序列;/n根据所述方言训练集中每个词的发音音素序列,标注所述方言训练集中每个词的方言发音。/n
【技术特征摘要】
1.一种方言发音标注方法,其特征在于,包括:
对获取的方言训练集进行音频-文本对齐,得到所述方言训练集中每个词的词边界,其中,所述每个词的词边界为该词在所述方言训练集中的音频起始帧和音频结束帧,所述方言训练集包括方言语音和对应的文本;
利用普通话语音识别模型对所述方言训练集进行语音-音素解码,得到所述方言训练集中每条语音的发音音素序列;
根据解码得到的所述方言训练集中每条语音的发音音素序列,和所述方言训练集中每个词的词边界,确定所述方言训练集中每个词的发音音素序列;
根据所述方言训练集中每个词的发音音素序列,标注所述方言训练集中每个词的方言发音。
2.根据权利要求1所述的方法,其特征在于,所述标注所述方言训练集中每个词的方言发音之后,所述方法还包括:
根据所述方言训练集中每个词的发音音素序列,并结合所述每个词在普通话发音词典中标注的发音,确定具备多个发音的目标词;
将所述目标词的目标发音加入所述普通话发音词典,得到目标发音词典。
3.根据权利要求2所述的方法,其特征在于,所述确定具备多个发音的目标词之后,所述将所述目标词的目标发音加入所述普通话发音词典,得到目标发音词典之前,所述方法还包括:
基于所述目标词的多个发音在所述方言训练集中的出现频率,确定所述目标词的目标发音,其中,所述目标发音为所述目标词的多个发音中出现频率满足预设条件的发音。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述对获取的方言训练集进行音频-文本对齐,包括:
使用声学模型作为语音识别训练模型,将所述方言训练集中的方言语音和普通话发音词典作为模型输入,将所述方言训练集中对应的方言词作为模型输出,训练得到第一语音识别模型;
利用所述第一语音识别模型对获取的方言训练集进行音频-文本对齐。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述利用普通话语音识别模型对所述方言训练集进行语音-音素解码,得到所述方言训练集中每条语音的发音音素序列,包括:
利用普通话声学模型和音素语言模型对所述方言训练集进行语音-音素解码,得到所述方言训练集中每条语音对应的发音音素序列,其中,所述音素语言模型是利用普通话音素集训练得到的,所述普通话音素集包括普通话发音音素。
6.根据权利要求5所述的方法,其特征在于,所述利用普通话声学模型和音素语言模型对所述方言训练集进行语音-音素解码之前,所述方法还包括:
使用语言模型作为音素语言训练模型,将所述普通话音素集中的音素和音素发音词典作为模型输入,将对应的符合普通话发音规则的发音音素...
【专利技术属性】
技术研发人员:王磊,冯大航,陈孝良,常乐,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。