质量评估模型训练和使用方法、设备及存储介质技术

技术编号：34920833 阅读：22 留言：0更新日期：2022-09-15 07:12

本申请实施例提供一种质量评估模型训练和使用方法、设备及存储介质。其中，质量评估模型是基于多模态数据中不同模态的数据对应的向量训练得到的，因此该质量评估模型可以用于对目标多模态数据进行质量评估；并且，在利用多种模态的向量进行模型训练之前，还将多种模态的向量进行融合处理以及对融合后的向量进行二分类，基于二分类后的融合向量进行模型训练；这样，在使用质量评估模型对目标多模态数据进行质量评估时，不仅适用于对目标多模态数据中每种模态的数据进行质量评估，还可结合目标多模态数据中不同种模态数据之间的关联关系从整体上对目标多模态数据进行质量评估，得到的质量评估结果更准确。到的质量评估结果更准确。到的质量评估结果更准确。

全部详细技术资料下载

【技术实现步骤摘要】
质量评估模型训练和使用方法、设备及存储介质

[0001]本申请涉及模型训练
，尤其涉及一种质量评估模型训练和使用方法、设备及存储介质。

技术介绍

[0002]在互联网发帖场景中，很多帖子内容为多模态数据，例如在招聘场景中，招聘帖的内容从数据模态角度可分为文本数据、用户行为数据以及用于描述用户行为的辅助数据等模态。对于企业而言，从数据安全角度考虑，需要对已发布的数据进行合规性检测，以确定数据是否被篡改或遭受恶意攻击。
[0003]在对目标场景下的多模态数据进行合规性检测时，通常会基于目标场景下的大量历史多模态数据进行模型训练，得到用于评估目标场景下任一多模态数据是否合规的评估模型。这种方式虽然可以对每种模态的数据进行合规性检测，但是，对于不同模态数据之间具有关联关系的情况，若每种模态数据均合规但不同模态数据之间不合规，则很难进行检测。因此，有必要提供一种对多模态数据进行整体合规性评估的方案。

技术实现思路

[0004]本申请从多个方面提供一种质量评估模型训练和使用方法、设备及存储介质，用以对多模态数据进行模型训练和质量评估，确定多模态数据的合规性。
[0005]本申请实施例提供一种用于多模态数据的质量评估模型训练方法，包括：获取N个训练任务对应的N个多模态样本数据，每个多模态样本数据包括至少两种模态的数据；对所述N个多模态样本数据进行向量化处理和融合处理，得到N个融合向量，并利用激活函数对所述N个融合向量进行二分类；基于初始化评估参数和二分类后的所述N个融合向量，对质量评估模型进行...

【技术保护点】

【技术特征摘要】
1.一种用于多模态数据的质量评估模型训练方法，其特征在于，包括：获取N个训练任务对应的N个多模态样本数据，每个多模态样本数据包括至少两种模态的数据；对所述N个多模态样本数据进行向量化处理和融合处理，得到N个融合向量，并利用激活函数对所述N个融合向量进行二分类；基于初始化评估参数和二分类后的所述N个融合向量，对质量评估模型进行第一分批训练，得到每批训练对应的多个中间态评估参数；基于所述多个中间态评估参数和二分类后的所述N个融合向量，对所述质量评估模型进行第二分批训练，得到每批训练对应的函数损失总和；根据所述第二分批训练得到的多个函数损失总和，确定所述质量评估模型对应的通用评估参数。2.根据权利要求1所述的方法，其特征在于，获取N个训练任务对应的N个多模态样本数据，包括：获取多个场景下的T个多模态数据，从所述T个多模态数据中，随机采样N个多模态样本数据作为N个训练任务；其中，N为大于1的正整数，N小于等于T。3.根据权利要求1所述的方法，其特征在于，对所述N个多模态样本数据进行向量化处理，包括：采用词向量计算方式对所述N个多模态样本数据中的文本数据进行向量计算，得到所述N个多模态样本数据中的词向量；采用图神经网络对所述N个多模态样本数据中的行为数据进行向量处理，得到所述N个多模态样本数据中的行为向量；采用独热编码方式对所述N个多模态样本数据中的辅助数据进行向量处理，得到所述N个多模态样本数据中的编码向量。4.根据权利要求3所述的方法，其特征在于，对所述N个多模态样本数据进行融合处理，得到所述N个融合向量，包括：对所述N个多模态样本数据经向量化处理后的N个向量，以每两个向量为一组，计算所述每两个向量的外积，得到中间向量；对所述中间向量做拉平处理，得到所述N个多模态样本数据分别对应的融合向量。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述N个融合向量中包括X个支持向量和Y个查询向量；基于初始化评估参数和二分类后的所述N个融合向量，对质量评估模型进行第一分批训练，得到每批训练对应的多个中间态评估参数，包括：按照设定的单次样本数量，从所述X个支持向量中分批获取对应数量的第一融合向量，基于初始化评估参数和第一损失函数，利用分批获取的第一融合向量依次对质量评估模型进行第一梯度下降计算，得到每次计算对应的所述单次样本数量个中间态评估参数。6.根据权利要求5所述的方法，其特征在于，基于所述多个中间态评估参数和二分类后的所述N个融合向量，对所述质量评估模型进行第二分批训练，得到每批训练对应的函数损失总和，包括：按照设定的单次样本数量，从所述Y个查询向量中分批获取对应数量的第二融合向量；
基于每次得到的所述单次样本数量个中间态评估参数和第二损失函数，利用分批获取的第二融合向量依次对所述质量评估模型进行第二梯度下降计算，得到每次计算对应的函数损失总和；其中，所述函数损失总和为每次第二梯度下降计算对应的第二融合向量在其分别使用的中间态评估参数下对应的函数损失的总和。7.根据权利要求6所述的方法，其特征在于，根据所述第二分批训练得到的多个函数损失总和，确定所述质量评估模型对应的通用评估参数，包括：确定所述第二分批训练得到的多个函数损失总和中最小的函数损失总和对应的...

【专利技术属性】
技术研发人员：杨晓婷，史忠伟，
申请(专利权)人：五八同城信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人