【技术实现步骤摘要】
数据处理方法、装置及设备
[0001]本文件涉及数据处理
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
[0002]随着计算机技术的快速发展,企业为用户提供的应用服务的种类和数量也越来越多,随之而来的用户数据的数据量日益增加,数据结构也日趋复杂,可以通过训练得到的模型对数据进行检测。例如,在对数据进行风险检测时,可以根据训练数据和对应的风险标签,对风险检测模型进行训练,在根据训练完成的风险检测模型,对待检测的数据进行风险检测。
[0003]但是,由于训练数据的风险标签的确定复杂度较高,这就会导致可以用于训练模型的训练数据的数据量小,以致训练得到的模型的检测准确性差,因此,需要一种能够提高模型的检测准确性的解决方案。
技术实现思路
[0004]本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种能够提高模型的检测准确性的解决方案。
[0005]为了实现上述技术方案,本说明书实施例是这样实现的:
[0006]第一方面,一种数据处理方法,包括:获取用于训练目标模型的 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获取用于训练目标模型的数据样本,所述数据样本包括用户在人机交互过程中的输入数据;将所述数据样本输入所述目标模型的第一模块,得到所述数据样本对应的第一分类标签以及所述数据样本对应的第一表征向量;基于所述第一表征向量和预设类别表征向量的相似度,确定所述数据样本对应的第二分类标签,并基于所述第二分类标签、所述第一分类标签和预设分类损失函数,得到第一损失值;将所述数据样本输入所述目标模型的第二模块,得到所述数据样本对应的第二表征向量,并基于所述第一表征向量、所述第二表征向量和预设对比损失函数,得到第二损失值,所述第二模块无梯度反向传播;基于所述第一损失值和所述第二损失值,对所述目标模型进行迭代训练,得到训练后的目标模型。2.根据权利要求1所述的方法,所述第一模块包括第一数据增强子模块、编码器、分类器和第一表征提取子模块,所述第一数据增强子模块用于对所述目标数据进行数据增强处理,所述编码器用于对增强处理后的数据样本进行编码处理,所述分类器用于对所述第一编码结果进行分类处理,所述第一表征提取子模块用于对所述第一编码结果进行表征提取处理;所述第二模块包括第二数据增强子模块、动量编码器和第二表征提取子模块,所述第二数据增强子模块用于对所述目标数据进行数据增强处理,所述动量编码器用于对增强处理后的数据样本进行编码处理,所述第二表征提取子模块用于对所述第二编码结果进行表征提取处理,所述动量编码器的结构与所述编码器的结构相同,所述动量编码器的参数与所述编码器的参数相同。3.根据权利要求2所述的方法,所述方法还包括:获取待检测的目标数据;将所述目标数据输入到所述训练后的目标模型中,得到所述目标数据对应的分类标签,并基于所述目标数据对应的分类标签,确定所述目标数据的分类结果。4.根据权利要求2所述的方法,所述方法还包括:获取待检测的目标数据;将所述目标数据输入到所述训练后的目标模型中,以通过所述训练后的目标模型的第一模块对所述目标数据进行处理,得到所述目标数据对应的目标表征向量;将所述目标表征向量输入到预先训练的风险检测模型中,得到所述目标数据的风险检测结果,所述风险检测模型为基于预设深度学习算法构建的模型。5.根据权利要求2所述的方法,所述基于所述第一表征向量和预设类别表征向量的相似度,确定所述数据样本对应的第二分类标签,包括:基于所述第一表征向量和预设类别表征向量,确定所述第一表征向量与每个所述预设类别表征向量之间的相似度;基于初始分类标签和所述相似度,确定所述数据样本对应的第二分类标签。6.根据权利要求5所述的方法,所述基于所述第一表征向量、所述第二表征向量和预设对比损失函数,得到第二损失值,包括:
获取所述动量编码器输出的历史表征向量,并基于所述历史表征向量、所述第一表征向量和所述第二表征向量构建表征记忆库;获取所述表征记忆库中与所述第一表征向量对应的正向表征向量;基于所述表征记忆库中的表征向量、所述正向表征向量、所述第一表征向量和所述预设对比损失函数,得到所述第二损失值。7.根据权利要求6所述的方法,所述获取所述表征记忆库中与所述第一表征向量对应的正向表征向量,包括:获取所述数据样本对应的分类标签,并...
【专利技术属性】
技术研发人员:蒋晨之,傅幸,王维强,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。