【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质
[0001]本专利技术涉及语音合成
,尤其涉及一种语音合成方法、装置、电子设备和存储介质。
技术介绍
[0002]随着计算机技术和人工智能技术的发展,语音合成技术,也即文本转语音(Text
‑
to
‑
Speech,TTS)技术得到了广泛应用。语音合成多样化的应用为日常生活提供了极大的便利,同时也丰富了多媒体技术带来的观感。针对不同场景下的需求,如何提升语音合成的韵律表现力对提升所合成语音的拟人度、风格匹配度等具有重要的意义,能够提升相应场景下的听感体验。
[0003]相关技术中,可以利用变分自编码(Variational AutoEncoder,VAE)的隐变量学习方法进行语音合成中的韵律表征,这种方法通过学习语音的全局风格标签,在语音合成时,利用一条参考语音实现风格的迁移,或者利用注意力机制等技术指定合成语音的风格。但这种方法仅能刻画句子层面上的语音风格信息,对于语音的韵律特性不能充分的控制,导致合成语音的语气、语调等单一,缺少多样的 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取目标文本;调用多层级韵律预测模型对所述目标文本进行韵律预测,得到所述目标文本在至少两个层级的韵律特征;其中,不同层级表征韵律特征的不同时间尺度;所述多层级韵律预测模型是基于第一文本样本和多层级的韵律特征样本训练得到的;根据所述目标文本和所述至少两个层级的韵律特征生成所述目标文本对应的语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述调用多层级韵律预测模型对所述目标文本进行韵律预测,得到所述目标文本在至少两个层级的韵律特征,包括:将所述目标文本输入所述多层级韵律预测模型的文本编码层,得到所述目标文本的文本特征;针对所述至少两个层级中的每个层级,将所述文本特征和所述每个层级的上一层级韵律特征输入所述多层级韵律预测模型的特征处理层,得到所述特征处理层输出的时序融合特征;所述特征处理层用于对所述文本特征和所述上一层级韵律特征进行时序对齐和拼接;将所述时序融合特征输入所述多层级韵律预测模型的解码层,得到所述解码层输出的所述每个层级对应的韵律特征;其中,所述上一层级韵律特征是基于所述目标文本在句子层级的韵律特征确定的。3.根据权利要求1或2所述的语音合成方法,其特征在于,所述多层级韵律预测模型是基于如下步骤训练得到的:获取所述第一文本样本,并获取所述多层级的韵律特征样本,所述多层级的韵律特征样本中包括句子层级的第一韵律特征样本和至少一个第二韵律特征样本;所述第二韵律特征样本为除所述句子层级以外的其他层级的韵律特征样本;基于所述第一文本样本和每一层级的上一层级的韵律特征样本,对初始多层级韵律预测模型进行针对所述每一层级的训练,得到所述多层级韵律预测模型;其中,所述句子层级为初始层级。4.根据权利要求3所述的语音合成方法,其特征在于,所述获取所述多层级的韵律特征样本,包括:获取样本语音的目标声学特征;将所述句子层级和所述其他层级中的每个层级依次作为目标层级,将所述目标声学特征输入所述目标层级对应的层级韵律预测模型,得到所述层级韵律预测模型输出的所述目标层级对应的韵律特征样本;所述层级韵律预测模型用于对所述目标声学特征进行下采样和量化编码;其中,每个所述目标层级的下采样尺度不同。5.根据权利要求4所述的语音合成方法,其特征在于,所述目标层级对应的层级韵律预测模型是基于如下步骤训练得到的:将所述目标声学特征输入所述目标层级对应的初始层级韵律预测模型,得到所述初始层级韵律预测模型输出的第一韵律特征;获取第二韵律特征,并对所述第一韵律特征和所述第二韵律特征进行时序对齐和拼接,得到第三韵律特征;所述第二韵律特征为所述目标层级的上一层级的层级韵律预测模
型基于所述目标声学特征输出的韵律特征;获取第二文本样本,并将所述第二文本样本输入文本编码网络,得到所述文本编码网...
【专利技术属性】
技术研发人员:殷锋,陈凌辉,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。