语音合成方法、语音合成系统、语音合成设备及存储介质技术方案

技术编号:36407314 阅读:80 留言:0更新日期:2023-01-18 10:16
本申请涉及语音合成技术领域,尤其涉及一种语音合成方法、语音合成系统、语音合成设备及存储介质。该方法包括:从当前语句的文本信息中获取声学特征序列;对当前语句、历史语句、未来语句的文本信息,获取上下文语义信息;获取历史语句的历史风格信息;将历史风格信息、上下文语义信息融合,得到期望风格信息;将期望风格信息与声学特征序列融合,以生成当前文本的语音信息。本申请的语音合成方法,不仅考虑了上下文文本信息对说话风格的影响,还通过引入历史语句的历史风格信息,更好地预测当前语句的风格信息,使合成的语音具有不错的表现力。力。力。

【技术实现步骤摘要】
语音合成方法、语音合成系统、语音合成设备及存储介质


[0001]本申请涉及语音合成
,尤其涉及一种语音合成方法、语音合成系统、语音合成设备及存储介质。

技术介绍

[0002]语音合成技术已经被广泛地应用到了有声小说、新闻、智能导航、语音助手等多个场景中,因为与人工录音相比,其效率高、成本低。语音合成的目标是合成类似人类的语音,其中的一个重点就是表现力。
[0003]传统的语音合成方法主要是拼接式语音合成方法和基于统计参数的语音合成方法。前者需要收集大量的语料数据,后者合成语音的音质和自然度都达不到要求。随着深度学习的发展,基于神经网络的端到端语音合成方法成为了主流方法,但合成语音的说话风格单一,语气平淡,缺乏表现力等原因导致模型的效果仍然有所欠缺,这也是合成语音和真实语音的主要差距所在。

技术实现思路

[0004]为了解决或者部分解决上述问题,本申请提供了一种语音合成方法、语音合成系统、语音合成设备及存储介质,可以针对长篇文章合成更具有表现力的语音。
[0005]第一方面,本申请的实施例提供了一种语音合成方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:从当前语句的文本信息中获取声学特征序列;根据当前语句、历史语句、未来语句的文本信息,获取上下文语义信息;所述历史语句为当前语句之前且已语音合成的语句文本,所述未来语句为当前语句之后且未语音合成的语句文本;获取历史语句的历史风格信息,将所述历史风格信息、所述上下文语义信息融合,得到期望风格信息;将所述期望风格信息与所述声学特征序列融合,以生成当前文本的语音信息。2.根据权利要求1所述的语音合成方法,其特征在于,所述从当前语句的文本信息中获取声学特征序列,包括:获取当前语句的文本信息,将所述文本信息转换为音素序列;将所述音素序列与预设的位置编码信息拼接,并从拼接后的音素序列中提取出声学特征序列。3.根据权利要求1所述的语音合成方法,其特征在于,所述根据当前语句、历史语句、未来语句的文本信息,获取上下文语义信息,包括:获取当前语句前的第一数量范围内的历史语句、当前语句后的第二数量范围内未来语句,并与所述当前语句组成文本序列;通过预训练的预测模型对所述文本序列进行预测,得到词级语义表征序列;通过文本编码器对所述词级语义表征序列添加标记,并确定文本序列的语义表征,得到上下文语义信息。4.根据权利要求1所述的语音合成方法,其特征在于,将所述历史风格信息、所述上下文语义信息融合,得到期望风格信息,包括:通过融合编码器,将句级别的上下文语义信息和来自语音侧的历史风格信息拼接,得到期望风格信息。5.根据权利要求1所述的语音合成方法,其特征在于,所述将所述期望风格信息与所述声学特征序列融合,以生成当前文本的语音信息,包括:获取所述期望风格信息的特征向量;复制所述特征向量,使复制后的所述特征向量长度与所述声...

【专利技术属性】
技术研发人员:康世胤吴志勇雷舜周逸轩陈礼扬
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1