当前位置: 首页 > 专利查询>南开大学专利>正文

基于质量对比学习的合成音质量评测模型的训练方法技术

技术编号:38353327 阅读:17 留言:0更新日期:2023-08-05 17:25
本发明专利技术属于计算机处理技术领域,更具体地,涉及一种基于质量对比学习的合成音质量评测模型的训练方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,设置中间任务,并定义正负样本,进行数据集中的正负样本划分;步骤S103,定义带权重的损失函数,控制训练目标,调整正负样本对表征的距离;步骤S104,在预训练模型基础上增加中间任务头,并按照上述规则进行训练;步骤S105,保留步骤S104阶段训练得到的特征提取部分,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。数和标签分数的均方误差为目标进行训练。数和标签分数的均方误差为目标进行训练。

【技术实现步骤摘要】
基于质量对比学习的合成音质量评测模型的训练方法


[0001]本专利技术属于计算机处理
,更具体地,涉及一种基于质量对比学习的合成音质量评测模型的训练方法。

技术介绍

[0002]语音质量评估是语音技术研究的一大领域,对语音增强、语音合成等领域的发展有重要意义。其中,平均意见得分(mean opinion score,MOS)是语音质量评价的黄金标准,普遍应用于语音合成的各类研究。平均意见得分实验需要实验者召集一定数量的志愿者作为被试,在预先培训的基础上,由被试在特定的实验环境下对待测语音进行质量评估和打分,打分的结果经过整理得到最终的语音质量评估分数。这一过程费时费力,且无法得到较为实时的反馈结果,因此研究人员提出利用深度学习算法自动预测平均意见得分,以较低的时间和经济成本对合成音质量进行准确评估。
[0003]合成音质量自动评测方法可以分为两大类,第一类是以MOSNet为代表的单阶段训练算法,这类方法利用卷积神经网络和循环神经网络构建算法模型,然后在平均意见得分数据集上进行训练,以获得语音质量评估能力。但由于该领域的数据集较小,模型不能充分学习,容易产生过拟合、性能差等问题。第二类方法是以SSL

MOS为代表的两阶段训练模型,这类模型引入具有强大表征能力的大模型进行特征提取,在衔接几层线性层作为下游任务头构建模型,这类模型需要经过两阶段训练:先在大规模数据集上训练,然后平均意见得分数据集上进行微调(fine

tuning),从而获得较好的性能。
[0004]以上方法都是合成音质量自动评测的经典方法,尤其是第二类方法已经成为该领域的主流方法,但是由于大模型并非针对合成音质量自动评测设计,因此在引入使用过程中存在数据不适配,训练目标不匹配等复杂情况,影响模型评估性能。

技术实现思路

[0005]为了解决现有方法在引入预训练模型的多种不适配情况,进一步提升模型质量评估能力,本专利技术提供一种三阶段训练方法:在预训练与微调过程中增加一个中间训练阶段,中间任务的内容是利用标签分数进行对比学习。本专利技术不仅能缓解原方法的不适配问题,同时使模型通过对比音频质量的方式学习得到了针对语音质量评估的能力,提升模型预测的准确性以及与人类专家打分的相关性。
[0006]为实现上述目的,本专利技术采用如下技术方案:
[0007]基于质量对比学习的合成音质量评测模型的训练方法,该方法包括以下步骤:
[0008]步骤S101,引入在大规模数据集上训练的模型作为预训练模型;
[0009]步骤S102,设置中间任务,并定义正负样本,进行数据集中的正负样本划分;
[0010]步骤S103,定义带权重的损失函数,控制训练目标,调整步骤S102定义的正负样本对表征间的距离;
[0011]步骤S104,在步骤S101预训练模型基础上增加中间任务头,并按照步骤S102和
S103定义的规则进行训练;
[0012]步骤S105,保留步骤S104阶段训练得到的特征提取部分,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。
[0013]本技术方案进一步的优化,所述步骤S102中记两个样本i和j,对应的质量分数标签为l
i
和l
j
,则判别函数isPositive(i,j)为:
[0014][0015]其中,d是预先设置的参数,在上述判别函数中,两个样本是否属于正样本对并不取决于各自的分数,而是取决于两个样本间的距离,当两个样本的距离小于预先设定的阈值时,则为正样本对,反之,则为负样本对;同时,通过调整d可以动态调整模型区分语音质量的粒度。
[0016]本技术方案进一步的优化,所述步骤103引入了权重系数w,权重的设置如下:
[0017][0018]其中,权重系数的值根据是否为正负样本对以及样本对标签分数的差值的绝对值这两个条件来设定,因此,带权重的损失函数L
w
的定义如下:
[0019][0020]其中,i∈I≡{1,...,N}为每个训练批次内的训练样本的索引,A(i)≡I\{i},P(i)={p∈A(i):IsPositive(x
i
,x
a
)=1},z
i
和z
p
是对应音频的表征向量,w
ia
为上述权重公式。
[0021]本技术方案进一步的优化,所述步骤104本阶段训练的模型结构为预训练模型将输入的音频转换为[T,768]维向量,其中T是与音频长度相关的维数,然后利用平均池化层对时间维度进行池化,转化为[1,768]维的特征向量,再衔接两层的全连接层作为中间任务头,将768维度的向量压缩为128维向量,以加速运算;通过步骤S102和步骤S103设计的规则对该“预训练模型+中间任务头”的模型进行训练,使得模型通过比较音频质量的方式间接学习获得通用语音质量评估能力。
[0022]本技术方案进一步的优化,所述步骤105保留步骤S104训练得到的模型的特征提取部分,舍弃中间任务头,并衔接一层全连接层作为下游任务头,输出1维度的向量即为预测的质量评估分数。该训练过程以最小化预测分数和标签分数的均方误差函数为目标。
[0023]区别于现有技术,本专利技术的有益效果是,减弱了原有方法在引入预训练模型的不适配问题,同时通过学习音频间的相关关系而获得了语音质量的评估能力,不仅对于准确率的提升有益,而且能提升与人类专家评分的相关性。
附图说明
[0024]图1为基于质量对比学习的合成音质量评测模型的训练方法流程图;
[0025]图2为训练结果可视化对比图。
具体实施方式
[0026]为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0027]本专利技术所采用的技术方案是:第一阶段为模型在大规模数据集上进行训练。第二阶段是在上一阶段的训练基础上进行中间任务训练,其中,中间任务是指根据标签分数进行对比学习训练以间接获得语音评估能力:首先根据提出的定义划分正例样本对和负例样本对,由于标签分数是连续的,因此正负样本对的定义是依据两个音频的相对分数差动态实现的。然后在学习过程中通过损失函数实现拉近正样本对之间的距离,拉远负样本对之间的距离,从而模型可以区分音频质量。第三阶段是保留第二阶段的模型结构以及训练得到的权重参数,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。
[0028]参阅图1所示,为基于质量对比学习的合成音质量评测模型的训练方法流程图。该方法包括以下步骤:
[0029]步骤S101,引入在大规模数据集上训练的模型作为预训练模型。
[0030]由于合成音质量自动评测数据集需要大量的人工标注,合成音质量评估数据集规模较小,这种低资源的问题会严重限制模型的性能和泛化能力。而在Librispeech数据集上训练的wav2vec 2.0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于质量对比学习的合成音质量评测模型的训练方法,其特征在于:该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,设置中间任务,并定义正负样本,进行数据集中的正负样本划分;步骤S103,定义带权重的损失函数,控制训练目标,调整步骤S102定义的正负样本对表征间的距离;步骤S104,在步骤S101预训练模型基础上增加中间任务头,并按照步骤S102和S103定义的规则进行训练;步骤S105,保留步骤S104阶段训练得到的特征提取部分,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。2.如权利要求1所述的基于质量对比学习的合成音质量评测模型的训练方法,其特征在于:所述步骤S102中记两个样本i和j,对应的质量分数标签为l
i
和l
j
,则判别函数isPositive(i,j)为:其中,d是预先设置的参数,在上述判别函数中,两个样本是否属于正样本对并不取决于各自的分数,而是取决于两个样本间的距离,当两个样本的距离小于预先设定的阈值时,则为正样本对,反之,则为负样本对;同时,通过调整d可以动态调整模型区分语音质量的粒度。3.如权利要求1所述的基于质量对比学习的合成音质量评测模型的训练方法,其特征在于:所述步骤103引入了权重系数w,权重矩阵W大小为N
×
N,其中N为一个训练批次的大小,权重的设置如下:其中,权重系数的值根据是否为正负样本对以及样本对标签分数的差值的...

【专利技术属性】
技术研发人员:秦勇王卉李起成周家名王雪琛贺佳贝
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1