用于生成合成语音的方法、装置、设备和介质制造方法及图纸

技术编号：26175184 阅读：25 留言：0更新日期：2020-10-31 14:07

本公开的实施例公开了用于生成合成语音的方法、装置、设备和介质。该方法的一具体实施方式包括：利用所获取的第一数目个声纹特征合成第二数目个声纹特征。其中，该第二数目大于该第一数目。而后，根据第二数目个声纹特征和所获取的第三数目个文本，生成合成语音集合。该实施方式实现了根据现有声纹特征扩增具有更多声纹特征的合成语音，从而为语料较少的训练样本扩增提供数据基础，有助于提升语音合成模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成合成语音的方法、装置、设备和介质
本公开的实施例涉及计算机
，具体涉及用于生成合成语音的方法和装置。
技术介绍
随着人工智能技术的发展，各种机器学习模型取得了越来越多的应用。对于机器学习模型来说，训练数据的数量往往是决定模型性能的主要因素。例如，在语音合成领域，对于训练数据量很少的语种，现有技术往往由于训练数据的样本量不足导致训练得到的语音合成模型的稳定性较差，且识别准确度偏低。
技术实现思路
本公开提出了用于生成合成语音的方法、装置、设备和介质。第一方面，本公开的实施例提供了一种用于生成合成语音的方法，该方法包括：获取第一数目个声纹特征；利用第一数目个声纹特征合成第二数目个声纹特征，其中，第二数目大于第一数目；获取第三数目个文本；根据第二数目个声纹特征和第三数目个文本，生成合成语音集合。在一些实施例中，上述利用第一数目个声纹特征合成第二数目个声纹特征，包括：从第一数目个声纹特征中选取声纹特征进行按比例融合操作，生成第二数目个声纹特征。在一些实施例中，上述获取第一数目个声纹特征，包括：获取第一语音集合，其中，上述第一语音集合中包括语种一致的语音；将第一语音集合中的语音输入至预先训练的声纹识别模型，得到与输入的语音对应的声纹特征。在一些实施例中，上述获取第一语音集合，包括：获取第二语音集合，其中，第二语音集合中包括的语音的数目大于第一语音集合中包括的语音的数目；将第二语音集合中的语音输入至预先训练的语音识别模型，得到与输入的语音对应的识别文本；根...

【技术保护点】
1.一种用于生成合成语音的方法，包括：/n获取第一数目个声纹特征；/n利用所述第一数目个声纹特征合成第二数目个声纹特征，其中，所述第二数目大于所述第一数目；/n获取第三数目个文本；/n根据所述第二数目个声纹特征和第三数目个文本，生成合成语音集合。/n

【技术特征摘要】
1.一种用于生成合成语音的方法，包括：
获取第一数目个声纹特征；
利用所述第一数目个声纹特征合成第二数目个声纹特征，其中，所述第二数目大于所述第一数目；
获取第三数目个文本；
根据所述第二数目个声纹特征和第三数目个文本，生成合成语音集合。

2.根据权利要求1所述的方法，其中，所述利用所述第一数目个声纹特征合成第二数目个声纹特征，包括：
从所述第一数目个声纹特征中选取声纹特征进行按比例融合操作，生成第二数目个声纹特征。

3.根据权利要求1或2所述的方法，其中，所述获取第一数目个声纹特征，包括：
获取第一语音集合，其中，所述第一语音集合中包括语种一致的语音；
将所述第一语音集合中的语音输入至预先训练的声纹识别模型，得到与输入的语音对应的声纹特征。

4.根据权利要求3所述的方法，其中，所述获取第一语音集合，包括：
获取第二语音集合，其中，所述第二语音集合中包括的语音的数目大于所述第一语音集合中包括的语音的数目；
将所述第二语音集合中的语音输入至预先训练的语音识别模型，得到与输入的语音对应的识别文本；
根据所得到的识别文本的识别率，从所述第二语音集合中选取语音生成所述第一语音集合。

5.根据权利要求4所述的方法，其中，所述根据所得到的识别文本的识别率，从所述第二语音集合中选取语音生成所述第一语音集合，包括：
响应于确定所得到的识别文本的识别率大于预设阈值，将所得到的识别文本对应的语音输入至预先训练的语音质量检测模型，得到与输入的语音对应的质量得分；
根据所得到的质量得分，从识别率大于预设阈值的识别文本对应的语音中选取语音生成所述第一语音集合。

6.一种用于训练语音合成模型的方法，包括：
获取训练样本集合，其中，所述训练样本集合包括如权利要求1-5之一所述的合成语音集合和与所述合成语音集合对...

【专利技术属性】
技术研发人员：殷翔，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人