方言语音合成方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:27940003 阅读:9 留言:0更新日期:2021-04-02 14:21
本发明专利技术实施例提供了一种方言语音合成方法、装置、电子设备和可读存储介质,涉及计算机技术领域,通过本发明专利技术实施例,可以基于发音向量中的韵律信息以及发音向量对应的发音时长,使得合成语音可以具有停顿、延长音等人类常用的说话形式,然后,还可以基于方言音调为合成语音附加方言独有的音高(也即方言独有的发音方式),使得合成语音更加贴近人类的说话方式,最终,基于发音向量、发音时长以及方言音调确定的合成语音可以与人声具有较高的相似度。

【技术实现步骤摘要】
方言语音合成方法、装置、电子设备和可读存储介质
本申请涉及计算机
,特别是涉及一种方言语音合成方法、装置、电子设备和可读存储介质。
技术介绍
目前,机器合成语音可以应用在各种场景,例如在线教育、视频配音以及解说等等,由于机器合成语音的存在,即节省了人力成本,也提升了趣味性。然而,目前的机器合成语音过于生硬,导致机器合成语音相对于人声的相似度很低。
技术实现思路
有鉴于此,本专利技术实施例提供一种方言语音合成方法、装置、电子设备和可读存储介质,可以合成与人声具有较高的相似度的合成语音。第一方面,提供了一种方言语音合成方法,所述方法应用于电子设备,所述方法包括:获取输入文本;确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音。可选的,所述确定所述输入文本中至少一个字的发音向量,包括:对所述输入文本中至少一个字进行向量化处理,确定所述输入文本中至少一个字的发音向量。可选的,所述确定所述输入文本中至少一个字的发音向量,包括:基于预先设置的文字和拼音的对应关系,确定所述输入文本中至少一个字的拼音信息;以及对所述拼音信息进行向量化处理,确定所述拼音信息的发音向量。可选的,所述确定各所述发音向量对应的发音时长,包括:基于预先训练的发音时长预测模型,将各所述发音向量作为输入,获取所述发音时长预测模型输出的各所述发音向量的发音时长。可选的,所述确定各所述发音向量对应的方言音调,包括:基于预先训练的方言语调预测模型,将各所述发音向量作为输入,获取所述方言音调预测模型输出的各所述发音向量的方言音调,所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。可选的,所述基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音,包括:基于预先训练的语音合成模型,将所述发音向量、所述发音时长以及所述方言音调作为输入,获取所述语音合成模型输出的合成频谱;以及通过声码器以及所述合成频谱,确定所述输入文本对应的合成语音。第二方面,提供了一种方言语音合成装置,所述装置应用于电子设备,所述装置包括:获取模块,用于获取输入文本;第一确定模块,用于确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;第二确定模块,用于确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及合成模块,用于基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音。可选的,所述第一确定模块,具体用于:对所述输入文本中至少一个字进行向量化处理,确定所述输入文本中至少一个字的发音向量。可选的,所述第一确定模块,具体用于:基于预先设置的文字和拼音的对应关系,确定所述输入文本中至少一个字的拼音信息;以及对所述拼音信息进行向量化处理,确定所述拼音信息的发音向量。可选的,所述第二确定模块,具体用于:基于预先训练的发音时长预测模型,将各所述发音向量作为输入,获取所述发音时长预测模型输出的各所述发音向量的发音时长。可选的,所述第二确定模块,具体用于:基于预先训练的方言语调预测模型,将各所述发音向量作为输入,获取所述方言音调预测模型输出的各所述发音向量的方言音调,所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。可选的,所述合成模块,具体用于:基于预先训练的语音合成模型,将所述发音向量、所述发音时长以及所述方言音调作为输入,获取所述语音合成模型输出的合成频谱;以及通过声码器以及所述合成频谱,确定所述输入文本对应的合成语音。第三方面,本专利技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。通过本专利技术实施例,可以基于发音向量中的韵律信息以及发音向量对应的发音时长,使得合成语音可以具有停顿、延长音等人类常用的说话形式,然后,还可以基于方言音调为合成语音附加方言独有的音高(也即方言独有的发音方式),使得合成语音更加贴近人类的说话方式,最终,基于发音向量、发音时长以及方言音调确定的合成语音可以与人声具有较高的相似度。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:图1为本专利技术实施例提供的一种方言语音合成方法的流程图;图2为本专利技术实施例提供的一种确定合成语音过程的示意图;图3为本专利技术实施例提供的另一种确定合成语音过程的示意图;图4为本专利技术实施例提供的一种发音时长预测模型的示意图;图5为本专利技术实施例提供的一种前馈网络模块的示意图;图6为本专利技术实施例提供的一种长度调节器的示意图;图7为本专利技术实施例提供的一种音素持续时间预测器的示意图;图8为本专利技术实施例提供的一种方言音调预测过程的示意图;图9为本专利技术实施例提供的一种音高预测器的示意图;图10为本专利技术实施例提供的一种方言语音合成装置的结构示意图;图11为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。目前,机器合成语音可以应用在各种场景,例如在线教育、视频配音以及解说等等,具体的,在线教育的场景中,在线教育平台可以构建虚拟人物,并为该虚拟人物配置机器合成语音,然后在线教育平台可以将配有机器合成语音的虚拟人物展示在学生端的显示界面,以实现机器点名等功能,即节省本文档来自技高网...

【技术保护点】
1.一种方言语音合成方法,其特征在于,所述方法包括:/n获取输入文本;/n确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;/n确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及/n基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音。/n

【技术特征摘要】
1.一种方言语音合成方法,其特征在于,所述方法包括:
获取输入文本;
确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及
基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音。


2.根据权利要求1所述的方法,其特征在于,所述确定所述输入文本中至少一个字的发音向量,包括:
对所述输入文本中至少一个字进行向量化处理,确定所述输入文本中至少一个字的发音向量。


3.根据权利要求1所述的方法,其特征在于,所述确定所述输入文本中至少一个字的发音向量,包括:
基于预先设置的文字和拼音的对应关系,确定所述输入文本中至少一个字的拼音信息;以及
对所述拼音信息进行向量化处理,确定所述拼音信息的发音向量。


4.根据权利要求1所述的方法,其特征在于,所述确定各所述发音向量对应的发音时长,包括:
基于预先训练的发音时长预测模型,将各所述发音向量作为输入,获取所述发音时长预测模型输出的各所述发音向量的发音时长。


5.根据权利要求1所述的方法,其特征在于,所述确定各所述发音向量对应的方言音调,包括:
基于预先训练的方言语调预测模型,将各所述发音向量作为输入,获取所述方言音调预测模型输出的各所述发音向量的方言音调,所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。


6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音,包括:
基于预先训练的语音合成模型,将所述发音向量、所述发音时长以及所述方言音调作为输入,获取所述语音合成模型输出的合成频谱;以及
通过声码器以及所述合成频谱,确定所述输入文本对应的合成语音。


7.一种方言语音合成装置,其特征在于,所述装置包括:
获取模块,用于获取输入文本;
第一确定模块,用于确定所述输入文本中至少一个字的...

【专利技术属性】
技术研发人员:梁光舒景辰吴雨璇杨惠周鼎皓
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1