一种用于个性化语音合成的方法和装置制造方法及图纸

技术编号：24760203 阅读：95 留言：0更新日期：2020-07-04 10:06

本申请公开了一种用于个性化语音合成的方法和装置，方法包括：接收用户输入的TTS模型生成请求，所述TTS模型生成请求中包括目标领域标识；向所述用户发送与所述目标领域标识对应的目标录音文本，并接收所述用户返回的与所述目标录音文本对应的音频文件，所述音频文件是所述用户根据所述目标录音文本录制得到的；根据所述音频文件，为所述用户生成与所述目标领域标识对应的目标TTS模型，所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。

A method and device for personalized speech synthesis

全部详细技术资料下载

【技术实现步骤摘要】
一种用于个性化语音合成的方法和装置
本申请涉及计算机
，尤其涉及一种用于个性化语音合成的方法和装置。
技术介绍
语音合成技术，也称为从文本到语音技术(TTS，TextToSpeech)，可以实现将文本信息转化为语音输出。具体地，首先，采集大量语音数据；然后，根据采集到的大量语音数据，生成TTS模型；最后，根据TTS模型，实现将文本信息转化为语音输出。由于传统TTS模型构建过程需要采集大量的语音数据，使得TTS模型的构建过程较为复杂。因此，需要一种更加容易实现的用于个性化语音合成的方法。
技术实现思路
本说明书实施例提供一种用于个性化语音合成的方法和装置，使得可以简化TTS模型的生成过程。第一方面，本说明书实施例提供了一种用于个性化语音合成的方法，包括：接收用户输入的语音合成TTS模型生成请求，所述TTS模型生成请求中包括目标领域标识；向所述用户发送与所述目标领域标识对应的目标录音文本，并接收所述用户返回的与所述目标录音文本对应的音频文件，所述音频文件是所述用户根据所述...

【技术保护点】
1.一种用于个性化语音合成的方法，包括：/n接收用户输入的语音合成TTS模型生成请求，所述TTS模型生成请求中包括目标领域标识；/n向所述用户发送与所述目标领域标识对应的目标录音文本，并接收所述用户返回的与所述目标录音文本对应的音频文件，所述音频文件是所述用户根据所述目标录音文本录制得到的；/n根据所述音频文件，为所述用户生成与所述目标领域标识对应的目标TTS模型，所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。/n

【技术特征摘要】
1.一种用于个性化语音合成的方法，包括：
接收用户输入的语音合成TTS模型生成请求，所述TTS模型生成请求中包括目标领域标识；
向所述用户发送与所述目标领域标识对应的目标录音文本，并接收所述用户返回的与所述目标录音文本对应的音频文件，所述音频文件是所述用户根据所述目标录音文本录制得到的；
根据所述音频文件，为所述用户生成与所述目标领域标识对应的目标TTS模型，所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。

2.如权利要求1所述的方法，向所述用户发送与所述目标领域标识对应的目标录音文本，包括：
确定录音文本数据库，所述录音文本数据库中包括不同领域标识对应的录音文本；
根据所述录音文本数据库，确定与所述目标领域标识对应的所述目标录音文本；
向所述用户发送所述目标录音文本。

3.如权利要求2所述的方法，通过以下方式确定得到所述录音文本数据库：
确定不同领域标识，所述不同领域标识中的任一领域标识对应一个领域；
根据预设算法，生成与所述任一领域标识对应的录音文本，在所述任一领域标识对应的录音文本中，包括与所述领域标识对应的领域中常见的字和/或词语。

4.如权利要求3所述的方法，所述领域标识包括下述至少一种：
儿童故事领域标识、交通领域标识、社会新闻领域标识，和天气预报领域标识。

5.如权利要求1所述的方法，根据所述音频文件，为所述用户生成与所述目标领域标识对应的目标TTS模型，包括：
对所述音频文件进行预处理，得到处理后音频文件；
根据所述处理后的音频文件，确定与所述用户发音特点匹配的特征参数；
根据所述特征参数，生成所述目标TTS模型。

6.如权利要求5所述的方法，所述特征参数包括下述至少一种：
音调、音色、语速、停顿，和口音。
...

【专利技术属性】
技术研发人员：孙尧，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人