语音合成方法、装置、存储介质和电子设备制造方法及图纸

技术编号：25602413 阅读：35 留言：0更新日期：2020-09-11 23:59

本申请提供的语音合成方法、装置、存储介质和电子设备，确定输入文本的音素序列，所述音素序列包括多个子音素序列；确定所述多个子音素序列中每一个子音素序列的时长信息；根据所述子音素序列的时长信息，确定所述子音素序列中每一个音素的时长信息；根据所述音素序列和所述每一个音素的时长信息，合成所述输入文本对应的语音。在上述语音合成方案中，可以根据输入文本合成输入文本对应的语音，而无需人工配音，降低了配音所需的人工成本高，并提升了配音的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、存储介质和电子设备
本申请涉及语音处理
，具体而言，涉及一种语音合成方法、装置、存储介质和电子设备。
技术介绍
在动画制作、视频配音、网上答题等多种场合下，都需要提供匹配的声音进行讲解。通常情况下需要在专业的录音棚中，由人工录制对应的语音，以便在播放对应画面时，可播放对应的声音。但这种人工配音的方式耗费的人工成本较高，配音的效率也较低。
技术实现思路
为了解决上述问题，本申请实施例提供了一种语音合成方法、装置和电子设备。第一方面，本申请实施例提供了一种语音合成方法，包括以下步骤：确定输入文本的音素序列，所述音素序列包括多个子音素序列；确定所述多个子音素序列中每一个子音素序列的时长信息；根据所述子音素序列的时长信息，确定所述子音素序列中每一个音素的时长信息；根据所述音素序列和所述每一个音素的时长信息，合成所述输入文本对应的语音。可选地，所述确定输入文本的音素序列，包括：对所述输入文本进行分词处理，以获取多个分词；确定所...

【技术保护点】
1.一种语音合成方法，其特征在于，所述方法包括：/n确定输入文本的音素序列，所述音素序列包括多个子音素序列；/n确定所述多个子音素序列中每一个子音素序列的时长信息；/n根据所述子音素序列的时长信息，确定所述子音素序列中每一个音素的时长信息；/n根据所述音素序列和所述每一个音素的时长信息，合成所述输入文本对应的语音。/n

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：
确定输入文本的音素序列，所述音素序列包括多个子音素序列；
确定所述多个子音素序列中每一个子音素序列的时长信息；
根据所述子音素序列的时长信息，确定所述子音素序列中每一个音素的时长信息；
根据所述音素序列和所述每一个音素的时长信息，合成所述输入文本对应的语音。

2.根据权利要求1所述的方法，其特征在于，所述确定输入文本的音素序列，包括：
对所述输入文本进行分词处理，以获取多个分词；
确定所述多个分词对应的多个子音素序列；
组合所述多个子音素序列，生成所述输入文本的音素序列。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：
确定目标子音素序列在多个样本语音中的多个时长信息；
根据所述多个时长信息，确定所述目标子音素序列的预测时长信息；
根据多个所述目标子音素序列的预测时长信息，生成子音素序列的时长统计结果；
所述确定所述多个子音素序列中每一个子音素序列的时长信息，包括：
根据所述子音素序列时长的统计结果，确定所述多个子音素序列中每一个子音素序列的时长信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个时长信息，确定所述目标子音素序列的预测时长信息，包括：
计算所述多个时长信息中每个时长信息的概率；
选取具有最大概率的时长信息作为所述目标子音素序列的所述预测时长信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述子音素序列的时长信息，确定所述子音素序列中每一个音...

【专利技术属性】
技术研发人员：杨惠，梁光，舒景辰，谭星，张岱，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人