数据处理方法、装置及设备制造方法及图纸

技术编号:37210194 阅读:18 留言:0更新日期:2023-04-20 23:01
本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下,获取所述第一数据对应的第二数据;将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值,并将所述第二数据中历史的特征数据输入预先训练的编码模型中,得到所述第二数据中历史的特征数据对应的第二压缩分值;基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,并基于所述目标数据中新增的特征数据,对所述第一数据中新增的特征数据进行填补处理,以提高对缺失数据的填补效果,提高后续数据处理的准确性。续数据处理的准确性。续数据处理的准确性。

【技术实现步骤摘要】
数据处理方法、装置及设备


[0001]本文件涉及数据处理
,尤其涉及一种数据处理方法、装置及设备。

技术介绍

[0002]随着计算机技术的快速发展,企业为用户提供的应用服务的种类和数量也越来越多,随之而来的用户数据的数据量日益增加,数据结构也日趋复杂。由于数据的时效性等原因,可能存在待检测数据存在数据缺失问题。
[0003]对于数据缺失问题,可以通过默认值填补的方式进行填补处理,例如,对于存在数据缺失的特征项,可以通过默认值(如

1等)对该特征项进行数据填补处理。
[0004]但是,由于待检测数据的特征项的数量较多,数据结构也较为复杂,因此,通过默认值对数据缺失项进行填补处理,会导致对缺失数据的填补效果差,影响后续数据处理的准确性,因此,需要一种能够提高对缺失数据的填补效果,以提高后续数据处理准确性的解决方案。

技术实现思路

[0005]本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种能够提高对缺失数据的填补效果,以提高后续数据处理准确性的解决方案。
[0006]为了实现上述技术方案,本说明书实施例是这样实现的:第一方面,一种数据处理方法,包括:在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下,获取所述第一数据对应的第二数据;将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值,并将所述第二数据中历史的特征数据输入预先训练的编码模型中,得到所述第二数据中历史的特征数据对应的第二压缩分值;所述编码模型为基于预设编码算法构建的用于将特征数据压缩到预设维度空间的模型,所述预设维度小于所述特征数据的维度;基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,并基于所述目标数据中新增的特征数据,对所述第一数据中新增的特征数据进行填补处理,得到填补处理后的第一数据。
[0007]第二方面,本说明书实施例提供了一种数据处理装置,所述装置包括:第一获取模块,用于在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下,获取所述第一数据对应的第二数据;分值获取模块,用于将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值,并将所述第二数据中历史的特征数据输入预先训练的编码模型中,得到所述第二数据中历史的特征数据对应的第二压缩分值;所述编码模型为基于预设编码算法构建的用于将特征数据压缩到预设维度空间的模型,所述预设维度小于所述特征数据的维度;数据填补模块,用于基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,并基于所述目标数据中新增的特征数据,对所述第一数据中新增的特征数据进行填
补处理,得到填补处理后的第一数据。
[0008]第三方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下,获取所述第一数据对应的第二数据;将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值,并将所述第二数据中历史的特征数据输入预先训练的编码模型中,得到所述第二数据中历史的特征数据对应的第二压缩分值;所述编码模型为基于预设编码算法构建的用于将特征数据压缩到预设维度空间的模型,所述预设维度小于所述特征数据的维度;基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,并基于所述目标数据中新增的特征数据,对所述第一数据中新增的特征数据进行填补处理,得到填补处理后的第一数据。
[0009]第四方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下,获取所述第一数据对应的第二数据;将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值,并将所述第二数据中历史的特征数据输入预先训练的编码模型中,得到所述第二数据中历史的特征数据对应的第二压缩分值;所述编码模型为基于预设编码算法构建的用于将特征数据压缩到预设维度空间的模型,所述预设维度小于所述特征数据的维度;基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,并基于所述目标数据中新增的特征数据,对所述第一数据中新增的特征数据进行填补处理,得到填补处理后的第一数据。
附图说明
[0010]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0011]图1A为本说明书一种数据处理方法实施例的流程图;图1B为本说明书一种数据处理方法的处理过程示意图;图2为本说明书又一种数据处理方法的处理过程示意图;图3为本说明书一种编码模型的示意图;图4为本说明书一种压缩值获取过程的示意图;图5为本说明书一种填补处理过程的示意图;图6为本说明书又一种数据处理方法的处理过程示意图;图7为本说明书一种数据处理装置实施例的结构示意图;图8为本说明书一种数据处理设备的结构示意图。
具体实施方式
[0012]本说明书实施例提供一种数据处理方法、装置及设备。
[0013]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0014]实施例一如图1A和图1B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。
[0015]该方法具体可以包括以下步骤:在S102中,在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下,获取第一数据对应的第二数据。
[0016]其中,第一数据可以是在预设获取周期内,获取的与预设业务和/或预设用户对应的数据,预设数据获取周期可以为近一周、近半个月、每天的预设时段等,具体如,第一数据可以是在每天的10点

14点获取的用户触发执行资源转移业务产生的行为数据,或者,第一数据还可以是近一天获取的预设用户在人机交互过程中输入的多个行为数据,又或者,第一数据还可以近一周获取的预设用户触发执行资源转移业务输入的多个行为数据,第一数据可以包括文本数据、语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:在检测到第一数据中新增的特征数据中存在特征数据缺失的情况下,获取所述第一数据对应的第二数据;将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值,并将所述第二数据中历史的特征数据输入预先训练的编码模型中,得到所述第二数据中历史的特征数据对应的第二压缩分值;所述编码模型为基于预设编码算法构建的用于将特征数据压缩到预设维度空间的模型,所述预设维度小于所述特征数据的维度;基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,并基于所述目标数据中新增的特征数据,对所述第一数据中新增的特征数据进行填补处理,得到填补处理后的第一数据。2.根据权利要求1所述的方法,所述方法还包括:将所述填补处理后的第一数据输入预先训练的风险检测模型中,得到所述第一数据的风险检测结果,所述风险检测模型为基于预设深度学习算法构建的模型。3.根据权利要求1所述的方法,在所述将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值之前,还包括:获取第一样本数据;将所述第一样本数据输入所述编码模型中的编码模块中,得到所述第一样本数据对应的第三压缩分值;将所述第三压缩分值输入所述编码模型中的解码模块中,得到所述第三压缩分值对应的第二样本数据;基于所述第一样本数据和所述第二样本数据,对所述编码模型进行迭代训练,得到训练后的编码模型;所述将所述第一数据中历史的特征数据输入预先训练的编码模型中,得到所述第一数据中历史的特征数据对应的第一压缩分值,包括:将所述第一数据中历史的特征数据输入预先训练的编码模型中的编码模块,得到所述第一数据中历史的特征数据对应的第一压缩分值。4.根据权利要求3所述的方法,所述基于所述第一样本数据和所述第二样本数据,对所述编码模型进行迭代训练,得到训练后的编码模型,包括:基于所述第一数据对应的风险检测需求,确定所述第一数据对应的风险损失函数,所述风险损失函数用于控制所述编码模型输出的压缩分值满足所述风险检测需求;将所述第一样本数据输入所述编码模型中的编码模块中,得到所述第一样本数据对应的风险分值;基于所述第一样本数据和所述第二样本数据,确定第一损失值,并基于所述风险分值和所述风险损失函数,确定第二损失值;基于所述第一损失值和所述第二损失值,对所述编码模型进行迭代训练,得到所述训练后的编码模型。5.根据权利要求1所述的方法,所述获取所述第一数据对应的第二数据,包括:获取所述第一数据中新增的特征数据中存在特征数据缺失的目标特征,并获取所述第
一数据对应的候选数据;将所述候选数据中与所述目标特征对应的特征数据不存在缺失的候选数据确定为所述第二数据。6.根据权利要求5所述的方法,所述基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,包括:获取所述第一压缩分值与每个所述第二压缩分值之间的差值;基于所述差值,确定所述第二压缩分值对应的第二数据中与所述第一数据对应的目标数据。7.根据权利要求1所述的方法,所述基于所述第一压缩分值和所述第二压缩分值,确定所述第二数据中与所述第一数据对应的目标数据,包括:获取所述第一数据中新增的特征数据中存在特征数据缺失的目标特征;将多个所述第二数据中与所述目标特...

【专利技术属性】
技术研发人员:王立
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1