语音合成的处理方法、装置、设备及存储介质制造方法及图纸

技术编号：26691788 阅读：27 留言：0更新日期：2020-12-12 02:44

本公开实施例提供一种语音合成的处理方法、装置、设备及存储介质，该方法包括：获取目标说话人的原语音数据；根据所述原语音数据为所述目标说话人匹配相似的第一源说话人；根据所述原语音数据，提取所述目标说话人的第一语音特征，并获取所述第一源说话人与所述原语音数据对应的第二语音特征；基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型；基于所述目标语音转换模型，为用户提供语音播报服务。实现了基于少量语音数据便可简单快速地获得需要的语音转换模型，解决了现有技术若只有少量的目标说话人的语音数据，获得的语音转换模型准确性低等缺陷。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成的处理方法、装置、设备及存储介质
本公开涉及计算机
，尤其涉及一种语音合成的处理方法、装置、设备及存储介质。
技术介绍
随着语音合成技术的发展，其在人们的日常生活中逐渐被广泛使用。比如，在交通领域，用户在驾车行驶过程中会采用导航播报，为了增加用户的趣味性，提高用户体验，可以为用户提供语音合成播报服务。现有技术中，通常是需要大量高质量的语音数据来训练获得语音转换模型，为用户提供语音合成播报服务。现实中用户往往无法提供满足要求的语音数据，导致获得的语音转换模型性能较低，语音转换不够准确。
技术实现思路
本公开实施例提供一种语音合成的处理方法、装置、设备及存储介质，以解决现有技术合成不够准确等缺陷。第一个方面，本专利技术实施例提供一种语音合成的处理方法，包括：获取目标说话人的原语音数据；根据所述原语音数据为所述目标说话人匹配相似的第一源说话人；根据所述原语音数据，提取所述目标说话人的第一语音特征，并获取所述第一源说话人与所述原语音数据对应的第二语音特...

【技术保护点】
1.一种语音合成的处理方法，其特征在于，包括：/n获取目标说话人的原语音数据；/n根据所述原语音数据为所述目标说话人匹配相似的第一源说话人；/n根据所述原语音数据，提取所述目标说话人的第一语音特征，并获取所述第一源说话人与所述原语音数据对应的第二语音特征；/n基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型；/n基于所述目标语音转换模型，为用户提供语音播报服务。/n

【技术特征摘要】
1.一种语音合成的处理方法，其特征在于，包括：
获取目标说话人的原语音数据；
根据所述原语音数据为所述目标说话人匹配相似的第一源说话人；
根据所述原语音数据，提取所述目标说话人的第一语音特征，并获取所述第一源说话人与所述原语音数据对应的第二语音特征；
基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型；
基于所述目标语音转换模型，为用户提供语音播报服务。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取包括所述目标说话人的语音的第一语音数据；
基于所述第一语音数据及预设认证模型，获得所述目标说话人的新的原语音数据；
根据所述新的原语音数据提取所述目标说话人的新的第一语音特征，并获取所述第一源说话人与所述新的原语音数据对应的新的第二语音特征；
基于所述新的第一语音特征和所述新的第二语音特征，对所述目标语音转换模型进行优化，获得优化的语音转换模型作为所述目标语音转换模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音数据及预设认证模型，获得所述目标说话人的新的原语音数据，包括：
对所述第一语音数据进行切分，获得语音片段；
提取各语音片段的FBank特征；
根据各语音片段的FBank特征，采用训练好的声纹模型，获得各语音片段对应的x-vector声纹特征；
根据各语音片段对应的x-vector声纹特征，采用概率线性判别分析算法确定属于所述目标说话人的语音片段，作为所述目标说话人的新的原语音数据。

4.根据权利要求1所述的方法，其特征在于，在所述基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型之前，所述方法还包括：
基于动态时间归整算法将所述第一语音特征和所述第二语音特征进行语音对齐。

5.根据权利要求1所述的方法，其特征在于，所述根据所述原语音数据为所述目标说话人匹配相似的第一源说话人，包括：
将所述原语音数据转换成对应的第一文本数据；
根据所述第一文本数据，获取预设的各源说话人的合成语音；
根据所述原语音数据及各源说话人的合成语音，确定与所述目标说话人相似的第一源说话人。

6.根据权利要求5所述的方法，其特征在于，所述根据所述原语音数据为所述目标说话人匹配相似的第一源说话人，还包括：
基于所述原语音数据，确定所述目标说话人的性别；
根据所述第一文本数据，获取预设的各源说话人的合成语音，包括：
从预设的各源说话人中选择与所述目标说话人性别相同的第二源说话人；
根据所述第一文本数据，获取各所述第二源说话人的合成语音；
所述根据所述原语音数据及各源说话人的合成语音，确定与所述目标说话人相似的第一源说话人，包括：
计算各第二源说话人的合成语音与所述目标说话人的原语音数据的梅尔谱失真度；将梅尔谱失真度最小的第二源说话人作为所述第一源说话人。

7.根据权利要求1所述的方法，其特征在于，所述目标语音转换模型为基于高斯混合模型训练获得的语音转换模型。

8.根据权利要求1所述的方法，其特征在于，获取所述第一源说话人与所述原语音数据对应的第二语音特征，包括：
将所述原语音数据转换为对应的第二文本数据；
根据所述第二文本数据，合成所述第一源说话人的第二语音数据；
基于所述第二语音数据，获取所述第二语音特征。

9.根据权利要求1所述的方法，其特征在于，在获取目标说话人的原语音数据之后，所述方法还包括：
对所述原语音数据进行预处理，获得预处理后的语音数据。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述基于所述目标语音转换模型，为用户提供语音播报服务，包括：
基于所述目标语音转换模型，将所述第一源说话人播报语音转换为所述目标说话人播报语音；
将所述目标说话人播报语音发送给所述用户的终端，以使所述终端进行播报。

11.根据权利要求1-9任一项所述的方法，其特征在于，所述基于所述目标语音转换模...

【专利技术属性】
技术研发人员：赵帅江，赵茜，罗讷，文成，郭庭炜，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人