质量评估模型训练和使用方法、设备及存储介质技术

技术编号:34920833 阅读:22 留言:0更新日期:2022-09-15 07:12
本申请实施例提供一种质量评估模型训练和使用方法、设备及存储介质。其中,质量评估模型是基于多模态数据中不同模态的数据对应的向量训练得到的,因此该质量评估模型可以用于对目标多模态数据进行质量评估;并且,在利用多种模态的向量进行模型训练之前,还将多种模态的向量进行融合处理以及对融合后的向量进行二分类,基于二分类后的融合向量进行模型训练;这样,在使用质量评估模型对目标多模态数据进行质量评估时,不仅适用于对目标多模态数据中每种模态的数据进行质量评估,还可结合目标多模态数据中不同种模态数据之间的关联关系从整体上对目标多模态数据进行质量评估,得到的质量评估结果更准确。到的质量评估结果更准确。到的质量评估结果更准确。

【技术实现步骤摘要】
质量评估模型训练和使用方法、设备及存储介质


[0001]本申请涉及模型训练
,尤其涉及一种质量评估模型训练和使用方法、设备及存储介质。

技术介绍

[0002]在互联网发帖场景中,很多帖子内容为多模态数据,例如在招聘场景中,招聘帖的内容从数据模态角度可分为文本数据、用户行为数据以及用于描述用户行为的辅助数据等模态。对于企业而言,从数据安全角度考虑,需要对已发布的数据进行合规性检测,以确定数据是否被篡改或遭受恶意攻击。
[0003]在对目标场景下的多模态数据进行合规性检测时,通常会基于目标场景下的大量历史多模态数据进行模型训练,得到用于评估目标场景下任一多模态数据是否合规的评估模型。这种方式虽然可以对每种模态的数据进行合规性检测,但是,对于不同模态数据之间具有关联关系的情况,若每种模态数据均合规但不同模态数据之间不合规,则很难进行检测。因此,有必要提供一种对多模态数据进行整体合规性评估的方案。

技术实现思路

[0004]本申请从多个方面提供一种质量评估模型训练和使用方法、设备及存储介质,用以对多模态数据进行模型训练和质量评估,确定多模态数据的合规性。
[0005]本申请实施例提供一种用于多模态数据的质量评估模型训练方法,包括:获取N个训练任务对应的N个多模态样本数据,每个多模态样本数据包括至少两种模态的数据;对所述N个多模态样本数据进行向量化处理和融合处理,得到N个融合向量,并利用激活函数对所述N个融合向量进行二分类;基于初始化评估参数和二分类后的所述N个融合向量,对质量评估模型进行第一分批训练,得到每批训练对应的多个中间态评估参数;基于所述多个中间态评估参数和二分类后的所述N个融合向量,对所述质量评估模型进行第二分批训练,得到每批训练对应的函数损失总和;根据所述第二分批训练得到的多个函数损失总和,确定所述质量评估模型对应的通用评估参数。
[0006]在一可选实施例中,获取N个训练任务对应的N个多模态样本数据,包括:获取多个场景下的T个多模态数据,从所述T个多模态数据中,随机采样N个多模态样本数据作为N个训练任务;其中,N为大于1的正整数,N小于等于T。
[0007]在一可选实施例中,对所述N个多模态样本数据进行向量化处理,包括:采用词向量计算方式对所述N个多模态样本数据中的文本数据进行向量计算,得到所述N个多模态样本数据中的词向量;采用图神经网络对所述N个多模态样本数据中的行为数据进行向量处理,得到所述N个多模态样本数据中的行为向量;采用独热编码方式对所述N个多模态样本数据中的辅助数据进行向量处理,得到所述N个多模态样本数据中的编码向量。
[0008]在一可选实施例中,对所述N个多模态样本数据进行融合处理,得到所述N个融合向量,包括:对所述N个多模态样本数据经向量化处理后的N个向量,以每两个向量为一组,
计算所述每两个向量的外积,得到中间向量;对所述中间向量做拉平处理,得到所述N个多模态样本数据分别对应的融合向量。
[0009]在一可选实施例中,所述N个融合向量中包括X个支持向量和Y个查询向量;基于初始化评估参数和二分类后的所述N个融合向量,对质量评估模型进行第一分批训练,得到每批训练对应的多个中间态评估参数,包括:按照设定的单次样本数量,从所述X个支持向量中分批获取对应数量的第一融合向量,基于初始化评估参数和第一损失函数,利用分批获取的第一融合向量依次对质量评估模型进行第一梯度下降计算,得到每次计算对应的所述单次样本数量个中间态评估参数。
[0010]在一可选实施例中,基于所述多个中间态评估参数和二分类后的所述N个融合向量,对所述质量评估模型进行第二分批训练,得到每批训练对应的函数损失总和,包括:按照设定的单次样本数量,从所述Y个查询向量中分批获取对应数量的第二融合向量;基于每次得到的所述单次样本数量个中间态评估参数和第二损失函数,利用分批获取的第二融合向量依次对所述质量评估模型进行第二梯度下降计算,得到每次计算对应的函数损失总和;其中,所述函数损失总和为每次第二梯度下降计算对应的第二融合向量在其分别使用的中间态评估参数下对应的函数损失的总和。
[0011]在一可选实施例中,根据所述第二分批训练得到的多个函数损失总和,确定所述质量评估模型对应的通用评估参数,包括:确定所述第二分批训练得到的多个函数损失总和中最小的函数损失总和对应的中间态评估参数;将所述最小的函数损失总和对应的中间态评估参数作为所述质量评估模型对应的通用评估参数。
[0012]在一可选实施例中,还包括:获取目标场景下的目标多模态数据,将所述目标多模态数据输入所述质量评估模型;在所述质量评估模型内部,根据所述通用评估参数对所述目标多模态数据进行质量评估,所述质量评估结果表示所述目标多模态数据的质量。
[0013]在一可选实施例中,在获取多个场景下的T个多模态数据的情况下,还包括:从所述T个多模态数据中,随机采样M个多模态样本数据作为M个测试任务,M为大于1的正整数,(N+M)小于等于T;对所述M个多模态样本数据进行向量化处理和融合处理,得到M个融合向量,利用激活函数对所述M个融合向量进行二分类。
[0014]在一可选实施例中,所述M个多模态样本数据包括所述目标多模态数据,所述M个多模态样本数据经向量化处理和融合处理后得到的M个融合向量包括P个支持向量和Q个查询向量,P小于N;在将所述目标多模态数据输入所述质量评估模型之前,还包括:利用所述P个支持向量对所述质量评估模型进行第三分批训练,对所述通用评估参数进行微调。
[0015]在一可选实施例中,在所述质量评估模型内部,根据所述通用评估参数对所述目标多模态数据进行质量评估,包括:在所述质量评估模型内部,对所述目标多模态数据进行向量化处理和融合处理,得到所述目标多模态数据对应的融合向量;利用激活函数对所述目标多模态数据对应的融合向量进行二分类;基于微调后的通用评估参数和所述Q个查询向量对所述二分类后的融合向量进行预测,得到对应两类融合向量的比值并作为质量评估结果并输出。
[0016]本申请实施例还提供一种质量评估模型的使用方法,包括:获取目标场景下的目标多模态数据,将所述目标多模态数据输入质量评估模型;在所述质量评估模型内部,根据通用评估参数对所述目标多模态数据进行质量评估,所述质量评估结果表示所述目标多模
态数据的质量。
[0017]在一可选实施例中,在所述质量评估模型内部,根据通用评估参数对所述目标多模态数据进行质量评估,包括:在所述质量评估模型内部,对所述目标多模态数据进行向量化处理和融合处理,得到所述目标多模态数据对应的融合向量,并利用激活函数对所述目标多模态数据对应的融合向量进行二分类;根据所述评估模型参数,对所述二分类后的融合向量进行预测,得到对应两类融合向量的比值并作为质量评估结果并输出。
[0018]本申请实施例还提供一种用于多模态数据的质量评估模型训练设备,包括:存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序,以用于实现任一项所述方法中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于多模态数据的质量评估模型训练方法,其特征在于,包括:获取N个训练任务对应的N个多模态样本数据,每个多模态样本数据包括至少两种模态的数据;对所述N个多模态样本数据进行向量化处理和融合处理,得到N个融合向量,并利用激活函数对所述N个融合向量进行二分类;基于初始化评估参数和二分类后的所述N个融合向量,对质量评估模型进行第一分批训练,得到每批训练对应的多个中间态评估参数;基于所述多个中间态评估参数和二分类后的所述N个融合向量,对所述质量评估模型进行第二分批训练,得到每批训练对应的函数损失总和;根据所述第二分批训练得到的多个函数损失总和,确定所述质量评估模型对应的通用评估参数。2.根据权利要求1所述的方法,其特征在于,获取N个训练任务对应的N个多模态样本数据,包括:获取多个场景下的T个多模态数据,从所述T个多模态数据中,随机采样N个多模态样本数据作为N个训练任务;其中,N为大于1的正整数,N小于等于T。3.根据权利要求1所述的方法,其特征在于,对所述N个多模态样本数据进行向量化处理,包括:采用词向量计算方式对所述N个多模态样本数据中的文本数据进行向量计算,得到所述N个多模态样本数据中的词向量;采用图神经网络对所述N个多模态样本数据中的行为数据进行向量处理,得到所述N个多模态样本数据中的行为向量;采用独热编码方式对所述N个多模态样本数据中的辅助数据进行向量处理,得到所述N个多模态样本数据中的编码向量。4.根据权利要求3所述的方法,其特征在于,对所述N个多模态样本数据进行融合处理,得到所述N个融合向量,包括:对所述N个多模态样本数据经向量化处理后的N个向量,以每两个向量为一组,计算所述每两个向量的外积,得到中间向量;对所述中间向量做拉平处理,得到所述N个多模态样本数据分别对应的融合向量。5.根据权利要求1

4任一项所述的方法,其特征在于,所述N个融合向量中包括X个支持向量和Y个查询向量;基于初始化评估参数和二分类后的所述N个融合向量,对质量评估模型进行第一分批训练,得到每批训练对应的多个中间态评估参数,包括:按照设定的单次样本数量,从所述X个支持向量中分批获取对应数量的第一融合向量,基于初始化评估参数和第一损失函数,利用分批获取的第一融合向量依次对质量评估模型进行第一梯度下降计算,得到每次计算对应的所述单次样本数量个中间态评估参数。6.根据权利要求5所述的方法,其特征在于,基于所述多个中间态评估参数和二分类后的所述N个融合向量,对所述质量评估模型进行第二分批训练,得到每批训练对应的函数损失总和,包括:按照设定的单次样本数量,从所述Y个查询向量中分批获取对应数量的第二融合向量;
基于每次得到的所述单次样本数量个中间态评估参数和第二损失函数,利用分批获取的第二融合向量依次对所述质量评估模型进行第二梯度下降计算,得到每次计算对应的函数损失总和;其中,所述函数损失总和为每次第二梯度下降计算对应的第二融合向量在其分别使用的中间态评估参数下对应的函数损失的总和。7.根据权利要求6所述的方法,其特征在于,根据所述第二分批训练得到的多个函数损失总和,确定所述质量评估模型对应的通用评估参数,包括:确定所述第二分批训练得到的多个函数损失总和中最小的函数损失总和对应的...

【专利技术属性】
技术研发人员:杨晓婷史忠伟
申请(专利权)人:五八同城信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1