【技术实现步骤摘要】
本专利技术涉及语音合成,尤其涉及一种语音合成方法、装置、电子设备和存储介质。
技术介绍
1、近年来,语音合成模型凭借其强大的语音生成能力和对未见说话人的零样本适应能力,已成为语音合成领域的主流技术。然而尽管语音合成模型具有诸多优势,但在实际应用中仍面临一个重要挑战,即如何使合成语音的质量与人类的主观评价一致。传统的语音合成模型训练过程中,并未直接引入人类主观评价的mos(mean opinion score)分数等指标,导致训练目标与人类的评估标准之间存在一定偏差,这种偏差会使得训练出的模型合成的语音难以完全满足人类的期望。
2、针对此,研究人员提出了基于人类反馈强化学习的方法以及基于直接偏好优化的方法。其中前者预先训练奖励模型,并应用强化学习算法调整语音合成模型,使其生成奖励分数更高的语音,但是此法依赖于在线采样、耗时较长,导致模型的训练效率低下。后者则是通过分类函数优化,使得模型输出更接近真实数据的分布,从而实现语音合成模型与人类偏好的对齐。虽然上述两种方法都能调整语音合成模型使其与人类偏好对齐,但它们所对齐的人类偏好都
...【技术保护点】
1.一种语音合成方法,其特征在于,包括:
2.根据权利要求1所述的语音合成方法,其特征在于,每一偏好对应的偏好数据集基于如下步骤确定:
3.根据权利要求2所述的语音合成方法,其特征在于,所述确定各初始合成语音在对应偏好下的语音评分,并基于所述各初始合成语音对应的语音评分,从所述各初始合成语音中确定对应偏好对应的样本偏好语音和样本非偏好语音,包括:
4.根据权利要求3所述的语音合成方法,其特征在于,所述多个偏好包括自然度偏好、理解度偏好和相似度偏好;所述基于所述各候选合成语音对应的细粒度语音评分,从所述各候选合成语音中确定对应偏好对应
...【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
2.根据权利要求1所述的语音合成方法,其特征在于,每一偏好对应的偏好数据集基于如下步骤确定:
3.根据权利要求2所述的语音合成方法,其特征在于,所述确定各初始合成语音在对应偏好下的语音评分,并基于所述各初始合成语音对应的语音评分,从所述各初始合成语音中确定对应偏好对应的样本偏好语音和样本非偏好语音,包括:
4.根据权利要求3所述的语音合成方法,其特征在于,所述多个偏好包括自然度偏好、理解度偏好和相似度偏好;所述基于所述各候选合成语音对应的细粒度语音评分,从所述各候选合成语音中确定对应偏好对应的样本偏好语音和样本非偏好语音,包括:
5.根据权利要求2至4中任一项所述的语音合成方法,其特征在于,所述基于初始语音合成模型,确定所述样本文本和所述提示语音对应的多个初始合成语音,包括:
6.根...
【专利技术属性】
技术研发人员:刘聪,李红羲,陈凌辉,刘丹,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。