语音合成方法、电子设备及存储介质技术

技术编号：30435907 阅读：28 留言：0更新日期：2021-10-24 17:36

本发明专利技术公开一种语音合成方法，应用于服务器，该方法包括：获取待合成文本；获取目标说话人特征参数；将所述待合成文本和所述目标说话人特征参数输入至通用语音合成模型得到具有目标说话人音色的合成音频。本发明专利技术的语音合成方法在服务器执行，在合成具有目标说话人音色的合成音频时，无需配置目标说话人专属的语音合成模型，只需要将待合成文本和目标说话人特征参数输入至通用语音合成模型即可。由此本发明专利技术的语音合成方法只需要预先准备目标说话人特征参数即可基于通用语音合成模型合成对应于待合成文本的合成音频。于待合成文本的合成音频。于待合成文本的合成音频。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、电子设备及存储介质

[0001]本专利技术涉及语音合成
，尤其涉及一种语音合成方法、电子设备及存储介质。

技术介绍

[0002]随着语音人机对话技术的在智能终端的不断推广应用，为了提升用户体验出现了由用户定制智能终端音色的功能。例如，对于智能音箱，用户可以根据自己的需求将智能音箱的音色设置成自己熟悉的人(例如，自己的妻子)的音色。要实现该音色定制功能，通常情况下是用户在智能音箱录制目标说话人的音频并提交至服务器端，然后在服务器端利用该目标说话人的录制音频训练得到可以合成具有目标说话人音色的语音的目标语音合成模型。
[0003]然而专利技术人在实现本专利技术的过程中发现，随着智能音箱用户的不断增多，越来越多的用户定制智能音箱的音色，这样就需要在服务器端训练并存储越来越多的目标语音合成模型。即，每个人的个性化音色定制，在服务器端都要提供相应的语音合成模型。如果有几百万、甚至上千万台智能终端的话，就可能会有相应数量的语音合成模型。如果要保证语音合成服务质量的话就需要增设巨大数量的服务器，这极大的增加了服务成本。
专本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，应用于服务器，所述方法包括：获取待合成文本；获取目标说话人特征参数；将所述待合成文本和所述目标说话人特征参数输入至通用语音合成模型得到具有目标说话人音色的合成音频。2.根据权利要求1所述的方法，其特征在于，所述获取目标说话人特征参数，包括：从预设说话人特征参数库中获取目标说话人特征参数。3.根据权利要求2所述的方法，其特征在于，所述预设说话人特征参数库中包括多个说话人特征参数和相应的多个说话人身份信息。4.根据权利要求3所述的方法，其特征在于，从预设说话人特征参数库中获取目标说话人特征参数，包括：根据目标说话人身份信息从预设说话人特征参数库中获取目标说话人特征参数。5.根据权利要求3所述的方法，其特征在于，所述预设说话人特征参数库中的说话人特征参数通过以下步骤得到：接收说话人的录制音频；根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征参数。6.根据权利要求5所述的方法，其特征在于，根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征...

【专利技术属性】
技术研发人员：于鹏伟，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人