语音合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：40245335 阅读：7 留言：0更新日期：2024-02-02 22:41

本发明专利技术涉及金融科技领域，本发明专利技术公开了一种语音合成方法、装置、计算机设备及存储介质，其方法包括：获取书面式文本；通过翻译模型翻译书面式文本，获得口语式文本；通过韵律模型为口语式文本添加韵律标签，获得标签文本；通过声学模型转换标签文本，合成目标语音。本发明专利技术通过翻译模型翻译书面式文本获得口语式文本，通过韵律模型添加韵律标签，最后通过声学模型合成目标语音，从而提高合成语音的口语化程度及合成语音的韵律自然度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及金融科技领域，尤其涉及一种语音合成方法、装置、计算机设备及存储介质。

技术介绍

1、通常情况下，文本具有书面化文本和口语化文本两种风格。由于口语比书面语亲切自然，容易理解，因而，在语音技术发达的时代，金融行业的ai客服将书面化的文本转换为口语化文本与用户进行对话时，会让用户有种亲切感，提高用户的兴趣。

2、目前end-to-end(一种端到端的机器学习技术)语音合成模型在合成水平上已经能够达到接近人声的水平，同时合成速度也远远快于autoregressive模型(一种时间序列预测模型)，但是绝大多数语音合成模型都是基于文本式语音数据进行训练的，因此模型合成的语音也是文本式风格。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种语音合成方法、装置、计算机设备及存储介质，以提高合成语音的口语化程度及合成语音的韵律自然度。

2、一种语音合成方法，包括：

3、获取书面式文本；

4、通过翻译模型翻译所述书面式文本，获得口语式文本；

5、通过韵律模型为所述口语式文本添加韵律标签，获得标签文本；

6、通过声学模型转换所述标签文本，合成目标语音。

7、一种语音合成装置，包括：

8、书面式文本获取模块，用于获取书面式文本；

9、口语式文本获取模块，用于通过翻译模型翻译所述书面式文本，获得口语式文本；

10、标签文本获取模块，用于通过韵律模型为所述口语式文本添加韵律标签，获得标签文本；

11、目标语音合成模块，用于通过声学模型转换所述标签文本，合成目标语音。

12、一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述语音合成方法。

13、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音合成方法。

14、上述语音合成方法、装置、计算机设备及存储介质中，通过获取书面式文本，从而通过翻译模型翻译所述书面式文本，获得口语式文本，进而通过韵律模型为所述口语式文本添加韵律标签，获得标签文本，最后通过声学模型转换所述标签文本，合成目标语音。本专利技术通过翻译模型将书面式文本翻译为口语式文本，再通过韵律模型添加韵律标签，最后通过声学模型转换合成目标语音，从而提高合成语音的口语化程度及合成语音的韵律自然度。

本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.如权利要求1所述的语音合成方法，其特征在于，所述通过翻译模型翻译所述书面式文本，获得口语式文本之前，还包括：

3.如权利要求1所述的语音合成方法，其特征在于，所述通过翻译模型翻译所述书面式文本，获得口语式文本，包括：

4.如权利要求1所述的语音合成方法，其特征在于，所述通过韵律模型为所述口语式文本添加韵律标签，获得标签文本，包括：

5.如权利要求4所述的语音合成方法，其特征在于，所述根据预设的嵌入算法对所述口语式文本进行转换，获得包含上下文相关信息的嵌入文本之后，包括：

6.如权利要求1所述的语音合成方法，其特征在于，所述通过声学模型转换所述标签文本，合成目标语音，包括：

7.如权利要求6所述的语音合成方法，其特征在于，所述根据预设的停顿填充词识别算法对所述标签文本进行识别，获得包含停顿标签的预输出文本，包括：

8.一种语音合成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音合成方法。

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

2.如权利要求1所述的语音合成方法，其特征在于，所述通过翻译模型翻译所述书面式文本，获得口语式文本之前，还包括：

3.如权利要求1所述的语音合成方法，其特征在于，所述通过翻译模型翻译所述书面式文本，获得口语式文本，包括：

4.如权利要求1所述的语音合成方法，其特征在于，所述通过韵律模型为所述口语式文本添加韵律标签，获得标签文本，包括：

6.如权利要求1所述的语音合成方法，其特征在于，所述...

【专利技术属性】
技术研发人员：孙奥兰，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人