一种用于语音合成的文本处理方法和系统技术方案

技术编号:39431532 阅读:10 留言:0更新日期:2023-11-19 16:16
本申请提供了一种用于语音合成的文本处理方法和系统,能够满足各种业务场景对合成语音的韵律需求,且无需人工对韵律进行大量的人工设计和调试,节省了语音合成方案落地的成本。该方法,应用于用于语音合成的文本处理系统,用于语音合成的文本处理系统包括拟人化改造模块,方法包括:根据拟人化改造模块获取的待处理文本的业务关键字,确定第一韵律标签,业务关键字是基于待处理文本对应的语音所应用的场景定义的;通过拟人化改造模块,对待处理文本进行基于神经网络模型的韵律标签预测处理,获取第二韵律标签;对待处理文本进行基于第一韵律标签和第二韵律标签的韵律标注,获取目标文本;根据目标文本的音素序列,合成目标文本对应的语音。标文本对应的语音。标文本对应的语音。

【技术实现步骤摘要】
一种用于语音合成的文本处理方法和系统


[0001]本申请涉及语音合成
,尤其涉及一种用于语音合成的文本处理方法和系统。

技术介绍

[0002]随着人工智能的发展,基于人工智能的语音合成(Text

to

Speech,TTS)技术的应用越来越广泛。其中,在对待处理文本进行预处理(简称为前端处理)后,再通过语音合成引擎进行语音合成。通过对待处理文本进行预处理,能够让语音合成引擎更准确地识别、处理文本,并将其转换成自然流畅的语音进行输出。语音的自然性(即拟人效果)通常通过韵律来体现,为了实现语音的拟人效果,需要根据待处理文本的韵律,使用相应的韵律标签标注待处理文本,使得语音合成引擎根据韵律标签确定合成的语音在相应位置的韵律。
[0003]目前,在语音合成方法中,常用的文本处理方案为基于规则的前端处理。基于规则的前端处理需根据语言学相关知识,制定一系列的规则和算法来对待处理文本进行预处理。
[0004]但是,由于不同业务场景对合成的语音的韵律需求不同,当语音合成方案需要适用于多种业务场景时,基于规则的前端处理需要研究人员针对各个业务场景,分别对待处理文本的韵律进行人工设计和调试后,通过人工标注韵律标签进行待处理文本的韵律标注,这种文本处理方式使得语音合成方法落地的成本较高。

技术实现思路

[0005]本申请提供了一种用于语音合成的文本处理方法和系统,能够满足各种业务场景对合成语音的韵律需求,且无需人工对韵律进行大量的人工设计和调试,节省了语音合成方案落地的成本。
[0006]第一方面,提供了一种用于语音合成的文本处理方法,应用于用于语音合成的文本处理系统,用于语音合成的文本处理系统包括拟人化改造模块,方法包括:
[0007]根据拟人化改造模块获取的待处理文本的业务关键字,确定第一韵律标签,业务关键字是基于待处理文本对应的语音所应用的场景定义的;
[0008]通过拟人化改造模块,对待处理文本进行基于神经网络模型的韵律标签预测处理,获取第二韵律标签;
[0009]对待处理文本进行基于第一韵律标签和第二韵律标签的韵律标注,获取目标文本;
[0010]根据目标文本的音素序列,合成目标文本对应的语音。
[0011]在一种可行的设计中,根据拟人化改造模块获取的待处理文本的业务关键字,确定第一韵律标签,包括:
[0012]通过拟人化改造模块,获取待处理文本的业务关键字;
[0013]通过拟人化改造模块,获取基于业务关键字确定的业务场景标签;
[0014]通过拟人化改造模块,从多个业务字典中选择适用于业务场景标签标识的目标场景的第一业务字典,第一业务字典用于关联至少一个业务关键字与至少一个第一韵律标签;
[0015]通过拟人化改造模块,从第一业务字典中确定与业务关键字匹配的第一韵律标签。
[0016]在一种可行的设计中,根据目标文本的音素序列,合成目标文本对应的语音,包括:
[0017]基于第一神经网络模型,对目标文本进行拼音化处理和多音字消歧处理,以确定具有不同拼音的文字在场景下对应的目标拼音,并生成拼音序列;
[0018]对拼音序列进行音素拆分处理,获取音素序列;
[0019]向语音合成引擎输入音素序列,合成目标文本对应的语音。
[0020]在一种可行的设计中,对目标文本进行拼音化处理和多音字消歧处理,包括:
[0021]获取目标文本中每一文字对应的拼音;
[0022]对每一文字进行编码,获取每一文字的上下文向量表示;
[0023]根据每一文字的上下文向量表示,计算每一文字对应的拼音的概率;
[0024]根据每一文字对应的拼音的概率,从每一文字对应的拼音中确定最大的概率对应的目标拼音。
[0025]在一种可行的设计中,获取基于业务关键字确定的业务场景标签,包括:
[0026]获取经过业务关键字和业务场景标签训练好的神经网络分类器;
[0027]向神经网络分类器输入待处理文本,获取待处理文本对应的业务场景标签。
[0028]在一种可行的设计中,获取基于业务关键字确定的业务场景标签,包括:
[0029]确定第一关联关系,第一关联关系用于关联至少一个业务关键字和至少一个业务场景标签;
[0030]根据第一关联关系和业务关键字,确定业务关键字对应的业务场景标签。
[0031]在一种可行的设计中,对拼音序列进行音素拆分处理,获取音素序列,包括:
[0032]根据业务场景标签,确定是否对拼音序列进行拼音更正;
[0033]若进行拼音更正,更新目标文本对应的拼音序列,对更新后的拼音序列进行音素拆分处理,获取音素序列;
[0034]若不进行拼音更正,对拼音序列进行音素拆分处理,获取音素序列。
[0035]在一种可行的设计中,根据业务场景标签,确定是否对拼音序列进行拼音更正,包括:
[0036]若业务场景标签表示待处理文本包括姓名或地名,确定对拼音文本进行拼音更正,其中,若进行拼音更正,更新目标文本对应的拼音序列,包括:
[0037]若进行拼音更正,重新确定目标文本中姓名或地名对应的拼音,以更新目标文本对应的拼音序列;
[0038]若业务场景标签表示待处理文本未包括姓名或地名,确定不对拼音文本进行拼音更正。
[0039]在一种可行的设计中,对待处理文本进行基于第一韵律标签和第二韵律标签的韵律标注,获取目标文本,包括:
[0040]通过拟人化改造模块,获取带有第二韵律标签的待处理文本;
[0041]通过拟人化改造模块,在带有第二韵律标签的待处理文本中,添加第一韵律标签,获取目标文本;
[0042]若目标文本中同一个位置对应有第一韵律标签和第二韵律标签,通过拟人化改造模块,删除位置对应的第二韵律标签。
[0043]第二方面,提供了一种用于语音合成的文本处理系统,包括:
[0044]拟人化改造模块,用于根据获取的待处理文本的业务关键字,确定第一韵律标签,业务关键字是基于待处理文本对应的语音所应用的场景定义的;
[0045]拟人化改造模块还用于,对待处理文本进行基于神经网络模型的韵律标签预测处理,获取第二韵律标签;
[0046]拟人化改造模块还用于,对待处理文本进行基于第一韵律标签和第二韵律标签的韵律标注,获取目标文本;
[0047]语音合成引擎,用于根据目标文本的音素序列,合成目标文本对应的语音。
[0048]本申请上述实施例通过在用于语音合成的文本处理系统中添加拟人化改造模块,提升合成的语音的拟人效果。具体地,首先根据拟人化改造模块获取的待处理文本的业务关键字,确定第一韵律标签,由于业务关键字是基于待处理文本对应的语音所应用的场景定义的,因此,业务关键字对应的第一韵律标签能够与待处理文本应用的场景贴合,即通过拟人化改造模块在待处理文本中添加第一韵律标签,使得最后合成的语音能够本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语音合成的文本处理方法,其特征在于,应用于用于语音合成的文本处理系统,所述用于语音合成的文本处理系统包括拟人化改造模块,所述方法包括:根据所述拟人化改造模块获取的待处理文本的业务关键字,确定第一韵律标签,所述业务关键字是基于所述待处理文本对应的语音所应用的场景定义的;通过所述拟人化改造模块,对所述待处理文本进行基于神经网络模型的韵律标签预测处理,获取第二韵律标签;对所述待处理文本进行基于所述第一韵律标签和所述第二韵律标签的韵律标注,获取目标文本;根据所述目标文本的音素序列,合成所述目标文本对应的语音。2.根据权利要求1所述的方法,其特征在于,所述根据所述拟人化改造模块获取的待处理文本的业务关键字,确定第一韵律标签,包括:通过所述拟人化改造模块,获取待处理文本的业务关键字;通过所述拟人化改造模块,获取基于所述业务关键字确定的业务场景标签;通过所述拟人化改造模块,从多个业务字典中选择适用于所述业务场景标签标识的目标场景的第一业务字典,所述第一业务字典用于关联至少一个业务关键字与至少一个第一韵律标签;通过所述拟人化改造模块,从所述第一业务字典中确定与所述业务关键字匹配的第一韵律标签。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本的音素序列,合成所述目标文本对应的语音,包括:基于第一神经网络模型,对所述目标文本进行拼音化处理和多音字消歧处理,以确定具有不同拼音的文字在所述场景下对应的目标拼音,并生成拼音序列;对所述拼音序列进行音素拆分处理,获取音素序列;向语音合成引擎输入所述音素序列,合成所述目标文本对应的语音。4.根据权利要求3所述的方法,其特征在于,所述对所述目标文本进行拼音化处理和多音字消歧处理,包括:获取所述目标文本中每一文字对应的拼音;对每一所述文字进行编码,获取每一所述文字的上下文向量表示;根据每一所述文字的上下文向量表示,计算每一所述文字对应的拼音的概率;根据每一所述文字对应的拼音的概率,从每一所述文字对应的拼音中确定最大的概率对应的目标拼音。5.根据权利要求2

4中任一项所述的方法,其特征在于,所述获取基于所述业务关键字确定的业务场景标签,包括:获取经过业务关键字和业务场景标签训练好的神经网络分类器;向所述神经网络分类器输入所述待处理文本,获取所述待处理文本对应的业务场景标签。6.根据权利要求2

【专利技术属性】
技术研发人员:赵言姚树杰樊冯飞
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1