多音字消歧方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:38513663 阅读:19 留言:0更新日期:2023-08-19 16:56
本发明专利技术实施例提供了一种多音字消歧方法、装置、电子设备及存储介质,包括:获取目标多音字包括掩码信息,分词信息、词性信息和语义信息的属性信息,将属性信息输入包括:声母分类器,韵母分类器,声调分类器的Transformer编码器后,将输出结果进行拼接,生成第一拼音预测结果,根据目标多音字的拼音权重信息和第一拼音预测结果确定最终拼音预测结果,本发明专利技术实施例通过将Transformer编码器拆解为三个分类器使得在数据量不多或者数据不平衡的情况下,声韵母模型可以得到充分训练,提高多音字预测正确率,同时通过增加拼音权重信息,可以提前限制好可能的多音字读音,使得多音字消歧的预测结果更加准确。结果更加准确。结果更加准确。

【技术实现步骤摘要】
多音字消歧方法、装置、电子设备及可读存储介质


[0001]本专利技术属于语音处理
,特别是涉及一种多音字消歧方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音合成(Text

to

speech,TTS)技术可以完成根据文本生成音频的任务。语音合成技术经历了多个发展阶段,但是无论是哪个阶段的合成技术,都离不开前端系统。前端系统一般包括语种判断模块、断句、分词、韵律预测、多音字消歧模块等。语音合成的前端系统中的多音字消歧模块对于整个合成效果起到非常关键的作用,因为如果多音字读错或者韵律停顿出现问题,会直接影响听者的感受,因此,优化语音合成前端系统的多音字消歧模块是亟须解决的问题。
[0003]现有技术中多音字消歧可以通过词表加规则方式,或者通过模型方法来完成,前者结合通用词表及自定义词表,以及大量规则或专家知识来实现消歧,后者则通过常见的2071类的分类模型来完成,然而前者会存在维护费力以及规则和规则之间容易冲突或者相互影响的问题,后者对数据量要求很大,另外,样本数据大的话,会导致本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多音字消歧方法,其特征在于,所述方法包括:获取目标多音字的属性信息,所述属性信息包括所述目标多音字的掩码信息,分词信息、词性信息和语义信息;将所述属性信息输入Transformer编码器,所述Transformer编码器包括:声母分类器,韵母分类器,声调分类器;将所述声母分类器,所述韵母分类器,所述声调分类器的输出结果进行拼接,生成第一拼音预测结果;根据所述目标多音字的拼音权重信息和所述第一拼音预测结果确定最终拼音预测结果。2.根据权利要求1所述的方法,其特征在于,所述获取目标多音字的属性信息之前,还包括:预先设定包括目标数量第一多音字的多音字列表;根据所述多音字列表获取目标数量的第二多音字;将所述第二多音字进行拼音、分词和词性的标注,并进行校对。3.根据权利要求2所述的方法,其特征在于,所述将所述多音字进行拼音、分词和词性的标注,并进行校对之后,还包括:若校对通过,则获取所述多音字列表的任一所述第一多音字对应的所述第二多音字的拼音标注信息;根据所述拼音标注信息确认任一所述第一多音字的拼音权重信息。4.根据权利要求2所述的方法,其特征在于,所述将所述第二多音字进行拼音、分词和词性的标注,并进行校对之后,还包括:获取待预测文本;根据所述多音字列表对所述待预测文本进行判断,确定所述待预测文本的目标多音字。5.根据权利要求1所述的方法,其特征在于,所述将所述属性信息输入Transformer编码器之后,还包括:通过所述声母分类器、所述属性信息确认所述目标多音字的声母预测结果;通过所述韵母分类器、所述属性信息确认所述目标多音字的韵母预测结果;通过所述声调分类器、所述属性信息确认所述目标多音字的声调预测结果。6.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:李睿端陈明李健武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1