数据处理方法、装置及设备制造方法及图纸

技术编号：37210194 阅读：20 留言：0更新日期：2023-04-20 23:01

本说明书实施例提供了一种数据处理方法、装置及设备，其中，该方法包括：在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下，获取所述第一数据对应的第二数据；将所述第一数据中历史的特征数据输入预先训练的编码模型中，得到所述第一数据中历史的特征数据对应的第一压缩分值，并将所述第二数据中历史的特征数据输入预先训练的编码模型中，得到所述第二数据中历史的特征数据对应的第二压缩分值；基于所述第一压缩分值和所述第二压缩分值，确定所述第二数据中与所述第一数据对应的目标数据，并基于所述目标数据中新增的特征数据，对所述第一数据中新增的特征数据进行填补处理，以提高对缺失数据的填补效果，提高后续数据处理的准确性。续数据处理的准确性。续数据处理的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置及设备

[0001]本文件涉及数据处理
，尤其涉及一种数据处理方法、装置及设备。

技术介绍

[0002]随着计算机技术的快速发展，企业为用户提供的应用服务的种类和数量也越来越多，随之而来的用户数据的数据量日益增加，数据结构也日趋复杂。由于数据的时效性等原因，可能存在待检测数据存在数据缺失问题。
[0003]对于数据缺失问题，可以通过默认值填补的方式进行填补处理，例如，对于存在数据缺失的特征项，可以通过默认值（如
‑
1等）对该特征项进行数据填补处理。
[0004]但是，由于待检测数据的特征项的数量较多，数据结构也较为复杂，因此，通过默认值对数据缺失项进行填补处理，会导致对缺失数据的填补效果差，影响后续数据处理的准确性，因此，需要一种能够提高对缺失数据的填补效果，以提高后续数据处理准确性的解决方案。

技术实现思路

[0005]本说明书实施例的目的是提供一种数据处理方法、装置及设备，以提供一种能够提高对缺失数据的填补效果，以提高后续数据处理准确性的解决方案。
[0006本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，包括：在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下，获取所述第一数据对应的第二数据；将所述第一数据中历史的特征数据输入预先训练的编码模型中，得到所述第一数据中历史的特征数据对应的第一压缩分值，并将所述第二数据中历史的特征数据输入预先训练的编码模型中，得到所述第二数据中历史的特征数据对应的第二压缩分值；所述编码模型为基于预设编码算法构建的用于将特征数据压缩到预设维度空间的模型，所述预设维度小于所述特征数据的维度；基于所述第一压缩分值和所述第二压缩分值，确定所述第二数据中与所述第一数据对应的目标数据，并基于所述目标数据中新增的特征数据，对所述第一数据中新增的特征数据进行填补处理，得到填补处理后的第一数据。2.根据权利要求1所述的方法，所述方法还包括：将所述填补处理后的第一数据输入预先训练的风险检测模型中，得到所述第一数据的风险检测结果，所述风险检测模型为基于预设深度学习算法构建的模型。3.根据权利要求1所述的方法，在所述将所述第一数据中历史的特征数据输入预先训练的编码模型中，得到所述第一数据中历史的特征数据对应的第一压缩分值之前，还包括：获取第一样本数据；将所述第一样本数据输入所述编码模型中的编码模块中，得到所述第一样本数据对应的第三压缩分值；将所述第三压缩分值输入所述编码模型中的解码模块中，得到所述第三压缩分值对应的第二样本数据；基于所述第一样本数据和所述第二样本数据，对所述编码模型进行迭代训练，得到训练后的编码模型；所述将所述第一数据中历史的特征数据输入预先训练的编码模型中，得到所述第一数据中历史的特征数据对应的第一压缩分值，包括：将所述第一数据中历史的特征数据输入预先训练的编码模型中的编码模块，得到所述第一数据中历史的特征数据对应的第一压缩分值。4.根据权利要求3所述的方法，所述基于所述第一样本数据和所述第二样本数据，对所述编码模型进行迭代训练，得到训练后的编码模型，包括：基于所述第一数据对应的风险检测需求，确定所述第一数据对应的风险损失函数，所述风险损失函数用于控制所述编码模型输出的压缩分值满足所述风险检测需求；将所述第一样本数据输入所述编码模型中的编码模块中，得到所述第一样本数据对应的风险分值；基于所述第一样本数据和所述第二样本数据，确定第一损失值，并基于所述风险分值和所述风险损失函数，确定第二损失值；基于所述第一损失值和所述第二损失值，对所述编码模型进行迭代训练，得到所述训练后的编码模型。5.根据权利要求1所述的方法，所述获取所述第一数据对应的第二数据，包括：获取所述第一数据中新增的特征数据中存在特征数据缺失的目标特征，并获取所述第
一数据对应的候选数据；将所述候选数据中与所述目标特征对应的特征数据不存在缺失的候选数据确定为所述第二数据。6.根据权利要求5所述的方法，所述基于所述第一压缩分值和所述第二压缩分值，确定所述第二数据中与所述第一数据对应的目标数据，包括：获取所述第一压缩分值与每个所述第二压缩分值之间的差值；基于所述差值，确定所述第二压缩分值对应的第二数据中与所述第一数据对应的目标数据。7.根据权利要求1所述的方法，所述基于所述第一压缩分值和所述第二压缩分值，确定所述第二数据中与所述第一数据对应的目标数据，包括：获取所述第一数据中新增的特征数据中存在特征数据缺失的目标特征；将多个所述第二数据中与所述目标特...

【专利技术属性】
技术研发人员：王立，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人