【技术实现步骤摘要】
语音合成方法、装置、电子设备和可读存储介质
本申请涉及计算机
,特别是涉及一种语音合成方法、装置、电子设备和可读存储介质。
技术介绍
目前,机器合成语音可以应用在各种场景,例如在线教育、视频配音以及解说等等,由于机器合成语音的存在,即节省了人力成本,也提升了趣味性。然而,目前的机器合成语音过于生硬,导致机器合成语音相对于人声的相似度很低。
技术实现思路
有鉴于此,本专利技术实施例提供一种语音合成方法、装置、电子设备和可读存储介质,以使得目标语音可以在播放过程中具有不同的停顿,进而使得目标语音更加贴近人类的说话方式,与人声具有较高的相似度。第一方面,提供了一种语音合成方法,所述方法应用于电子设备,所述方法包括:获取目标文本。对所述目标文本进行向量化处理,确定所述目标文本中的至少一个组成成分对应的特征向量,所述组成成分为字或者词。将各所述特征向量输入至预先训练的韵律分类模型进行处理,确定各所述特征向量对应的韵律标签,所述韵律标签用于标记所述特征向量对应文本发音后的 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取目标文本;/n对所述目标文本进行向量化处理,确定所述目标文本中的至少一个组成成分对应的特征向量,所述组成成分为字或者词;/n将各所述特征向量输入至预先训练的韵律分类模型进行处理,确定各所述特征向量对应的韵律标签,所述韵律标签用于标记所述特征向量对应文本发音后的停顿时长;以及/n基于各所述韵律标签,合成所述目标文本对应的目标语音。/n
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取目标文本;
对所述目标文本进行向量化处理,确定所述目标文本中的至少一个组成成分对应的特征向量,所述组成成分为字或者词;
将各所述特征向量输入至预先训练的韵律分类模型进行处理,确定各所述特征向量对应的韵律标签,所述韵律标签用于标记所述特征向量对应文本发音后的停顿时长;以及
基于各所述韵律标签,合成所述目标文本对应的目标语音。
2.根据权利要求1所述的方法,其特征在于,所述韵律分类模型通过迭代方式训练,步骤如下:
确定当前训练集,所述当前训练集包括带有标点符号的训练样本和/或不带有标点符号的训练样本,以及各训练样本所对应的韵律标注;
对所述当前训练集中的训练样本进行向量化处理,确定各训练样本对应的特征向量;
基于各训练样本对应的特征向量和各训练样本对应的韵律标注,训练韵律分类模型;以及
响应于所述当前训练集满足预定条件,结束迭代过程,获取训练完成的韵律分类模型。
3.根据权利要求2所述的方法,其特征在于,所述确定当前训练集,包括:
获取初始训练集,所述初始训练集具有对应的预定样本比例,所述预定样本比例用于表征所述初始训练集中带有标点符号的训练样本和不带有标点符号的训练样本的比例。
4.根据权利要求3所述的方法,其特征在于,所述确定当前训练集还包括:
根据前一迭代过程中训练集对应的样本比例,确定当前训练集对应的样本比例;以及
根据所述当前训练集的样本比例确定所述当前训练集。
5.根据权利要求3或4所述的方法,其特征在于,所述预定条件包括所述当前训练集对应的样本比例达到预定的比例阈值。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行向量化处理,确定所述目标文本中的至少一个组成成分对应的特征向量,包括:
对所述目标文本进行分词处理,确定所述目标文本中的至少一个组成成分;以及
基于预先训练的双向语言模型BERT对所述目标文本中的每个组成成分进行嵌入处理,确定每个组成成分所对应的特征向量。
7.根据权利要求1所述的方法,其特征在于,所述基于各所述韵律标签,合成所述目标文本对应的目标语音,包括:
确定所述目标文本中至少一个组成成分的发音向量;以及
基于所述发音向量和所述韵律标签,合成所述目标文本对应的目标语音。
8.根据权利要求7所述的方法,其特征在于,所述基于所述发音向量和所述韵律标签,合成所述目标文本对应的带有停顿时长的目标语音,包括:
确定各所述发音向量对应的发音时长以及发音音调,所述发音时长用于表征发音的持续时长,所述发音音调用于表征发音的音高;以及
基于所述发音向量、所述发音时长、所述发音音调和所述韵律标签,合成所述目标文本对应的目标语音。
9.根据权利要求8所述的方法,其特征在于,所述发音音调为方言音调,所述方言音调用于表征方言发音的音高。
10.一种语音合成装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本;
第一向量化模块,用于对所述目标文本进行向量化处理,确定所述目标文本中...
【专利技术属性】
技术研发人员:梁光,舒景辰,吴雨璇,杨惠,周鼎皓,
申请(专利权)人:北京大米科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。