语音合成方法、系统、电子设备及可读存储介质技术方案

技术编号：43967168 阅读：9 留言：0更新日期：2025-01-10 19:56

本申请提供了一种语音合成方法及系统、电子设备和计算机可读存储介质。语音合成方法包括：基于多个不同时间分辨率阶段，对输入文本的声学特征序列进行多码本量化，以形成第一量化序列；将第一量化序列压缩为第二量化序列；以及将第二量化序列映射为与输入文本对应的语音波形。本申请提供的语音合成方法及系统，在降低对监督数据的需求的同时，降低了构建语音合成系统的复杂性，并实现了高质量的语音合成。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施方式涉及语音处理，更具体地，涉及一种语音合成方法和系统。本申请实施方式还涉及一种电子设备、一种计算机可读存储介质。

技术介绍

1、语音合成(text-to-speech，tts)旨将文本转换为发音正确、韵律自然以及高音质的语音信号。目前，tts已经被广泛地用于各种智能产品，例如人机交互(human-computerinteraction，hci)，语音到语音翻译(speech-to-speech translation，s2st)以及人工智能生成内容(artificial intelligence generated content，aigc)等。

2、随着人工智能技术普及至各个领域，为了提供更好的服务，tts系统越来越重视提高诸如个性化、定制化等各方面的综合性能。然而，提高tts的综合性能所需的数据集往往需要足够多高质量语音音频以及与这些语音音频对应的准确的转录本，因而上述数据集的数量和成本严重阻碍了tts系统综合性能的提高。

3、具体地，tts所需的数据集可包括监督数据集和无监督数据集(可理解为未标...

【技术保护点】

1.一种语音合成方法，其特征在于，所述语音合成方法包括：

2.根据权利要求1所述的语音合成方法，其中，对输入文本的声学特征序列进行多码本量化，以形成第一量化序列包括：

3.根据权利要求2所述的语音合成方法，其中，所述多个预定码本中的至少一个为多头码本，采用多个预定码本分别对所述多级子序列中的每一个进行量化，以生成具有所述不同时间分辨率阶段的多级量化子序列包括：

4.根据权利要求1所述的语音合成方法，其中，所述第一量化序列包括具有不同所述时间分辨率阶段的多级量化子序列，将所述第一量化序列压缩为第二量化序列包括：

5.根据权利要求1所述的语音合...

【技术特征摘要】

1.一种语音合成方法，其特征在于，所述语音合成方法包括：

2.根据权利要求1所述的语音合成方法，其中，对输入文本的声学特征序列进行多码本量化，以形成第一量化序列包括：

5.根据权利要求1所述的语音合成方法，其中，所述方法还包括：

6.根据权利要求1所述的语音合成方法，其中，将所述第二量化序列映射为与所述输入文本对应的语音波形包括：

7.根据权利要求6所述的语音合成方法，其中，

8.根据权利要求1所述的语音合成方法，其中，所述方法通过语音合成系统实施，所述方法还包括训练所述语音合成系统，所述训练包括：

9.根据权利要求8所述的语音合成方法，其中，

10.根据权利要求9所述的语音合成方法，其中，

【专利技术属性】
技术研发人员：蒙美玲，吴锡欣，郭浩瀚，亢嘉文，
申请(专利权)人：博智感知交互研究中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人