方言语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:35351346 阅读:15 留言:0更新日期:2022-10-26 12:19
本申请公开了一种方言语音识别方法、装置、设备及存储介质,本申请预先配置了方言语音识别模型,该模型为,以各类型语言(包括普通话及各类型方言)的语音样本作为训练样本,以该训练样本的识别文本经句法分析及phone级标注后的携带有句法信息的phone级标注文本作为标签训练得到,相比于现有的字级端到端模型,本申请基于音素phone级进行建模,从发音层面实现了提高各类型方言之间以及方言与普通话之间建模单元的区分性、并减少各方言之间串扰度,从而提升各方言的识别效果。进一步地,在标注上引入了句法信息,能够让模型学习到各方言的语法层面的信息,进一步提升各方言的识别效果,此外,由于添加了语法信息,还可以提升模型识别文本的可阅读性。识别文本的可阅读性。识别文本的可阅读性。

【技术实现步骤摘要】
方言语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音识别
,更具体的说,是涉及一种方言语音识别方法、装置、设备及存储介质。

技术介绍

[0002]中国地域广阔,汉语与少数民族语的方言众多,现代汉语有各种不同的方言,它们分布的区域很广,现代汉语各方言之间的差异表现在语音、词汇、语法各个方面,语音方面尤为突出。鉴于方言的多样性及差异性,对语音识别技术提出了较高的要求。
[0003]现有方言语音识别技术主要基于目标方言训练数据进行声学以及语言模型训练,建模单元一般使用字级端到端建模,通过提取字级特征进行方言的识别。但是,与普通话不同的是,对于大部分方言而言,携带有标注的训练数据量较少,而字级端到端建模依赖于大量的数据量,这就导致模型在低资源方言上表现较差,对于方言的识别结果准确度不高。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种方言语音识别方法、装置、设备及存储介质,以解决现有方言语音识别技术的识别准确度不高的问题。
[0005]具体方案如下:
[0006]一种方言语音识别方法,包括:
[0007]获取目标语言类型的待识别语音;
[0008]将所述待识别语音输入至预设的方言语音识别模型,得到模型输出的携带有句法信息的音素phone级标注文本;
[0009]其中,方言语音识别模型为,以各类型语言的语音样本作为训练样本,以该训练样本的识别文本经句法分析及phone级标注后的携带有句法信息的phone级标注文本作为标签训练得到;所述各类型语言包括普通话及各类型方言;
[0010]利用预设的与所述目标语言类型对应的解码网络对所述携带有句法信息的phone级标注文本进行解码,得到携带有句法信息的字符级标注文本;
[0011]对所述携带有句法信息的字符级标注文本进行文本规整,以去除其中的句法信息,得到方言语音识别文本。
[0012]优选地,所述方言语音识别模型训练过程训练样本的标签的确定过程,包括:
[0013]获取所述训练样本对应的识别文本;
[0014]对所述识别文本进行句法分析,并将分析后的句法信息标注到所述识别文本中,得到携带有句法信息的字符级标注文本;
[0015]采用与所述训练样本的语言类型匹配的phone级发音词典,确定所述识别文本对应的phone级标注;
[0016]将所述携带有句法信息的字符级标注文本中的字符用对应的phone级标注进行替换,得到携带有句法信息的phone级标注文本。
[0017]优选地,各语言类型匹配的phone级发音词典的确定过程,包括:
[0018]对于普通话及粤方言这两种语言类型,直接使用各自对应的phone级发音词典;
[0019]对于除普通话及粤方言外的其余各语言类型,复用普通话的phone级发音词典,形成各自语言类型匹配的phone级发音词典。
[0020]优选地,所述对于除普通话及粤方言外的其余各语言类型,复用普通话的phone级发音词典,形成各自语言类型匹配的phone级发音词典,包括:
[0021]对所述其余各语言类型分别进行编号,得到每一语言类型对应的编号;
[0022]对于所述其余各语言类型中的任意一种语言类型:
[0023]将普通话的phone级发音词典中各phone后添加与所述语言类型对应的编号,得到与所述语言类型匹配的phone级发音词典。
[0024]优选地,所述方言语音识别模型包括编码模块和解码模块,所述编码模块用于对输入的语音进行编码,得到语音编码特征;所述解码模块用于基于所述语音编码特征预测输入的语音对应的携带有句法信息的phone级标注文本。
[0025]优选地,所述编码模块采用预训练方式进行训练得到;其中,编码模块预训练的过程包括:
[0026]获取训练数据集,所述训练数据集包括各类型语言的训练语音,所述各类型语言包括普通话及各类型方言;
[0027]以训练数据集中,同类型语言的训练语音构成正例样本对,不同类型语言的训练语音构成负例样本对,采用对比学习策略对编码模块进行训练,训练过程中,以最大化正例样本对的语音编码特征间的相似度,最小化负例样本对的语音编码特征间的相似度为目标,直至达到设定训练结束条件,得到训练后的编码模块。
[0028]优选地,所述获取训练数据集包括:
[0029]获取原始训练数据集;
[0030]对所述原始训练数据集中各语言的训练语音数据量的比例进行调整,以使得调整后的训练数据集中,普通话对其余各方言的训练语音数据量的比例不超过设定比值,且各方言之间训练语音数据量保持一致;
[0031]对所述调整后的训练数据集进行随机random,以使得训练数据集中各类型语言的训练语音分布具有随机性。
[0032]优选地,与目标语言类型对应的解码网络的建立过程,包括:
[0033]利用目标语言类型匹配的phone级发音词典,及携带有句法信息的目标语言类型的文本语料训练得到与目标语言类型对应的解码网络。
[0034]一种方言语音识别装置,包括:
[0035]待识别语音获取单元,用于获取目标语言类型的待识别语音;
[0036]模型处理单元,用于将所述待识别语音输入至预设的方言语音识别模型,得到模型输出的携带有句法信息的音素phone级标注文本;
[0037]其中,方言语音识别模型为,以各类型语言的语音样本作为训练样本,以该训练样本的识别文本经句法分析及phone级标注后的携带有句法信息的phone级标注文本作为标签训练得到;所述各类型语言包括普通话及各类型方言;
[0038]字符解码单元,用于利用预设的与所述目标语言类型对应的解码网络对所述携带
有句法信息的phone级标注文本进行解码,得到携带有句法信息的字符级标注文本;
[0039]文本规整单元,用于对所述携带有句法信息的字符级标注文本进行文本规整,以去除其中的句法信息,得到方言语音识别文本。
[0040]一种方言语音识别设备,包括:存储器和处理器;
[0041]所述存储器,用于存储程序;
[0042]所述处理器,用于执行所述程序,实现如上所述的方言语音识别方法的各个步骤。
[0043]一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的方言语音识别方法的各个步骤。
[0044]借由上述技术方案,本申请预先配置了方言语音识别模型,该模型为,以各类型语言(包括普通话及各类型方言)的语音样本作为训练样本,以该训练样本的识别文本经句法分析及phone级标注后的携带有句法信息的phone 级标注文本作为标签训练得到,相比于现有的字级端到端模型,本申请基于音素phone级进行建模,从发音层面实现了提高各类型方言之间以及方言与普通话之间建模单元的区分性、并减少各方言之间串扰度,从而提升各方言的识别效果。
[0045]进一步地,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方言语音识别方法,其特征在于,包括:获取目标语言类型的待识别语音;将所述待识别语音输入至预设的方言语音识别模型,得到模型输出的携带有句法信息的音素phone级标注文本;其中,方言语音识别模型为,以各类型语言的语音样本作为训练样本,以该训练样本的识别文本经句法分析及phone级标注后的携带有句法信息的phone级标注文本作为标签训练得到;所述各类型语言包括普通话及各类型方言;利用预设的与所述目标语言类型对应的解码网络对所述携带有句法信息的phone级标注文本进行解码,得到携带有句法信息的字符级标注文本;对所述携带有句法信息的字符级标注文本进行文本规整,以去除其中的句法信息,得到方言语音识别文本。2.根据权利要求1所述的方法,其特征在于,所述方言语音识别模型训练过程训练样本的标签的确定过程,包括:获取所述训练样本对应的识别文本;对所述识别文本进行句法分析,并将分析后的句法信息标注到所述识别文本中,得到携带有句法信息的字符级标注文本;采用与所述训练样本的语言类型匹配的phone级发音词典,确定所述识别文本对应的phone级标注;将所述携带有句法信息的字符级标注文本中的字符用对应的phone级标注进行替换,得到携带有句法信息的phone级标注文本。3.根据权利要求2所述的方法,其特征在于,各语言类型匹配的phone级发音词典的确定过程,包括:对于普通话及粤方言这两种语言类型,直接使用各自对应的phone级发音词典;对于除普通话及粤方言外的其余各语言类型,复用普通话的phone级发音词典,形成各自语言类型匹配的phone级发音词典。4.根据权利要求3所述的方法,其特征在于,所述对于除普通话及粤方言外的其余各语言类型,复用普通话的phone级发音词典,形成各自语言类型匹配的phone级发音词典,包括:对所述其余各语言类型分别进行编号,得到每一语言类型对应的编号;对于所述其余各语言类型中的任意一种语言类型:将普通话的phone级发音词典中各phone后添加与所述语言类型对应的编号,得到与所述语言类型匹配的phone级发音词典。5.根据权利要求1所述的方法,其特征在于,所述方言语音识别模型包括编码模块和解码模块,所述编码模块用于对输入的语音进行编码,得到语音编码特征;所述解码模块用于基于所述语音编码特征预测输入的语音对应的携带有句法信息的phone级标注文本。6.根据权利要求5所述的方法,其特征在于,所述编码模块采用预训练方式进行训练...

【专利技术属性】
技术研发人员:胡莹莹孔常青万根顺潘嘉刘聪胡国平胡郁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1