语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：44924439 阅读：28 留言：0更新日期：2025-04-08 19:03

本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：基于用户的语音合成偏好，从多个语音合成模型中选取目标语音合成模型，基于待合成文本，应用目标语音合成模型进行语音合成，得到符合语音合成偏好的合成语音；每一语音合成模型基于多个偏好对应的偏好数据集和偏好权重配置训练得到，不同语音合成模型训练时所使用的偏好权重配置不同，克服了传统方案中针对于语音合成模型的人类偏好对齐方法仅能对齐单一的人类偏好，无法满足多样化的人类偏好需求的缺陷，通过多目标直接偏好优化方式训练语音合成模型，不仅使得训练过程更加简单高效，还能够从多个维度进行人类偏好对齐，通过赋予各偏好权重以满足多样化的人类偏好需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

1、近年来，语音合成模型凭借其强大的语音生成能力和对未见说话人的零样本适应能力，已成为语音合成领域的主流技术。然而尽管语音合成模型具有诸多优势，但在实际应用中仍面临一个重要挑战，即如何使合成语音的质量与人类的主观评价一致。传统的语音合成模型训练过程中，并未直接引入人类主观评价的mos（mean opinion score）分数等指标，导致训练目标与人类的评估标准之间存在一定偏差，这种偏差会使得训练出的模型合成的语音难以完全满足人类的期望。

2、针对此，研究人员提出了基于人类反馈强化学习的方法以及基于直接偏好优化的方法。其中前者预先训练奖励模型，并应用强化学习算法调整语音合成模型，使其生成奖励分数更高的语音，但是此法依赖于在线采样、耗时较长，导致模型的训练效率低下。后者则是通过分类函数优化，使得模型输出更接近真实数据的分布，从而实现语音合成模型与人类偏好的对齐。虽然上述两种方法都能调整语音合成模型使其与人类偏好对齐，但它们所对齐的人类偏好都...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，每一偏好对应的偏好数据集基于如下步骤确定：

3.根据权利要求2所述的语音合成方法，其特征在于，所述确定各初始合成语音在对应偏好下的语音评分，并基于所述各初始合成语音对应的语音评分，从所述各初始合成语音中确定对应偏好对应的样本偏好语音和样本非偏好语音，包括：

4.根据权利要求3所述的语音合成方法，其特征在于，所述多个偏好包括自然度偏好、理解度偏好和相似度偏好；所述基于所述各候选合成语音对应的细粒度语音评分，从所述各候选合成语音中确定对应偏好对应的样本偏好语音和样本...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，每一偏好对应的偏好数据集基于如下步骤确定：

4.根据权利要求3所述的语音合成方法，其特征在于，所述多个偏好包括自然度偏好、理解度偏好和相似度偏好；所述基于所述各候选合成语音对应的细粒度语音评分，从所述各候选合成语音中确定对应偏好对应的样本偏好语音和样本非偏好语音，包括：

5.根据权利要求2至4中任一项所述的语音合成方法，其特征在于，所述基于初始语音合成模型，确定所述样本文本和所述提示语音对应的多个初始合成语音，包括：

6.根...

【专利技术属性】
技术研发人员：刘聪，李红羲，陈凌辉，刘丹，胡国平，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人