方言语音合成方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：27940003 阅读：24 留言：0更新日期：2021-04-02 14:21

本发明专利技术实施例提供了一种方言语音合成方法、装置、电子设备和可读存储介质，涉及计算机技术领域，通过本发明专利技术实施例，可以基于发音向量中的韵律信息以及发音向量对应的发音时长，使得合成语音可以具有停顿、延长音等人类常用的说话形式，然后，还可以基于方言音调为合成语音附加方言独有的音高(也即方言独有的发音方式)，使得合成语音更加贴近人类的说话方式，最终，基于发音向量、发音时长以及方言音调确定的合成语音可以与人声具有较高的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
方言语音合成方法、装置、电子设备和可读存储介质
本申请涉及计算机
，特别是涉及一种方言语音合成方法、装置、电子设备和可读存储介质。
技术介绍
目前，机器合成语音可以应用在各种场景，例如在线教育、视频配音以及解说等等，由于机器合成语音的存在，即节省了人力成本，也提升了趣味性。然而，目前的机器合成语音过于生硬，导致机器合成语音相对于人声的相似度很低。
技术实现思路
有鉴于此，本专利技术实施例提供一种方言语音合成方法、装置、电子设备和可读存储介质，可以合成与人声具有较高的相似度的合成语音。第一方面，提供了一种方言语音合成方法，所述方法应用于电子设备，所述方法包括：获取输入文本；确定所述输入文本中至少一个字的发音向量，所述发音向量至少包括对应字的韵律信息；确定各所述发音向量对应的发音时长以及方言音调，所述发音时长用于表征发音的持续时长，所述方言音调用于表征发音的音高；以及基于所述发音向量、所述发音时长以及所述方言音调，合成所述输入文本对应的合成语音。可...

【技术保护点】
1.一种方言语音合成方法，其特征在于，所述方法包括：/n获取输入文本；/n确定所述输入文本中至少一个字的发音向量，所述发音向量至少包括对应字的韵律信息；/n确定各所述发音向量对应的发音时长以及方言音调，所述发音时长用于表征发音的持续时长，所述方言音调用于表征发音的音高；以及/n基于所述发音向量、所述发音时长以及所述方言音调，合成所述输入文本对应的合成语音。/n

【技术特征摘要】
1.一种方言语音合成方法，其特征在于，所述方法包括：
获取输入文本；
确定所述输入文本中至少一个字的发音向量，所述发音向量至少包括对应字的韵律信息；
确定各所述发音向量对应的发音时长以及方言音调，所述发音时长用于表征发音的持续时长，所述方言音调用于表征发音的音高；以及
基于所述发音向量、所述发音时长以及所述方言音调，合成所述输入文本对应的合成语音。

2.根据权利要求1所述的方法，其特征在于，所述确定所述输入文本中至少一个字的发音向量，包括：
对所述输入文本中至少一个字进行向量化处理，确定所述输入文本中至少一个字的发音向量。

3.根据权利要求1所述的方法，其特征在于，所述确定所述输入文本中至少一个字的发音向量，包括：
基于预先设置的文字和拼音的对应关系，确定所述输入文本中至少一个字的拼音信息；以及
对所述拼音信息进行向量化处理，确定所述拼音信息的发音向量。

4.根据权利要求1所述的方法，其特征在于，所述确定各所述发音向量对应的发音时长，包括：
基于预先训练的发音时长预测模型，将各所述发音向量作为输入，获取所述发音时长预测模型输出的各所述发音向量的发音时长。

5.根据权利要求1所述的方法，其特征在于，所述确定各所述发音向量对应的方言音调，包括：
基于预先训练的方言语调预测模型，将各所述发音向量作为输入，获取所述方言音调预测模型输出的各所述发音向量的方言音调，所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于所述发音向量、所述发音时长以及所述方言音调，合成所述输入文本对应的合成语音，包括：
基于预先训练的语音合成模型，将所述发音向量、所述发音时长以及所述方言音调作为输入，获取所述语音合成模型输出的合成频谱；以及
通过声码器以及所述合成频谱，确定所述输入文本对应的合成语音。

7.一种方言语音合成装置，其特征在于，所述装置包括：
获取模块，用于获取输入文本；
第一确定模块，用于确定所述输入文本中至少一个字的...

【专利技术属性】
技术研发人员：梁光，舒景辰，吴雨璇，杨惠，周鼎皓，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人