一种多音字消歧方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:33632372 阅读:29 留言:0更新日期:2022-06-02 01:38
本发明专利技术是关于一种多音字消歧的方法、装置、电子设备及可读存储介质,涉及语音处理技术领域,包括:将待处理文本划分为若干个字符,其中,所述若干个字符包括目标多音字字符和非目标多音字字符;针对每个字符,获取所述字符对应的第一标识;将所述字符以及所述字符对应的第一标识输入至预先生成的目标多音字消歧模型,根据所述目标多音字消歧模型的输出确定所述目标多音字字符的发音。应用于语音合成系统中实现多音字消歧的场景中,本发明专利技术通过利用目标多音字消歧模型对待处理文本中的目标多音字字符进行多音字消歧,进而提高了这些场景下多音字消歧的预测速度,进一步地,提高了多音字消歧的效果。音字消歧的效果。音字消歧的效果。

【技术实现步骤摘要】
一种多音字消歧方法、装置、电子设备及可读存储介质


[0001]本申请涉及语音处理
,尤其涉及一种多音字消歧方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音合成技术(Text To Speech,TTS),是指利用计算机将任意文本转化为语音的技术。对于输入的文本需要将其转化为对应的发音,其中,多音字转换的正确与否,极大地影响了用户对合成语音的理解情况,如果多音字转换错误,则语音合成的效果将会大打折扣。因此多音字消歧是语音合成系统中一个重要的任务。
[0003]目前多音字消歧的实现方法有基于决策树、基于最大熵算法、基于专家知识(大量规则),然而,基于决策树的方法是通过预设一些问题,根据问题及预设概率,给所有的可能读音一个最终概率值,由于该种方法需要预设问题及概率值,在语境或者场景发生变化时,这些问题会出现不适配,使得运用该种方法的多音字消歧效果不佳;最大熵模型是基于最大熵原理设计的一种分类模型,对数据量要求很大,然而,样本数据大的话,会导致计算量变大,使得该种方法存在一定应用上的限制;基于专家知识(大量规则)的方法会存本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多音字消歧的方法,其特征在于,所述方法包括:将待处理文本划分为若干个字符,其中,所述若干个字符包括目标多音字字符和非目标多音字字符;针对每个字符,获取所述字符对应的第一标识;将所述字符以及所述字符对应的第一标识输入至预先生成的目标多音字消歧模型,根据所述目标多音字消歧模型的输出确定所述目标多音字字符的发音。2.根据权利要求1所述的方法,其特征在于,在将所述待处理文本划分为若干个字符,其中,所述若干个字符包括目标多音字字符和非目标多音字字符的步骤之前,还包括:预先生成目标多音字消歧模型;获取待处理文本。3.根据权利要求2所述的方法,其特征在于,所述预先生成目标多音字消歧模型,包括:获取训练样本,其中,所述训练样本包括若干样本文本和若干所述样本文本中目标多音字字符的标注信息,所述标注信息用于指示所述样本文本中目标多音字字符的发音以及所述样本文本中目标多音字字符的发音对应的第二标识;将所述若干样本文本作为输入,将若干所述样本文本中目标多音字字符的标注信息作为输出的目标,对预设的初始模型进行训练,将训练完成的模型确定为目标多音字消歧模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标多音字消歧模型的输出确定所述目标多音字字符的发音,包括:根据所述目标多音字消歧模型的输出得到所述目标多音字字符的标注信息;根据所述目标多音字字符的标注信息确定所述目标多音字字符的发音。5.一种多音字消歧的装置,其特征在于,所述装置包括:划分模块,用于将待处理文本划分为若干个字符,其中,所述若干个字符包括目标多音字字符和非目标多音字字符;第一标识获取模块,用于针对每个字符,获取所述字符对应的第...

【专利技术属性】
技术研发人员:李睿端李健武卫东陈明
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1