一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27502297 阅读:18 留言:0更新日期:2021-03-02 18:27
本发明专利技术提供了一种数据处理方法、装置、电子设备及存储介质。所述方法,包括:获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。从而取得了通过流程统一保证中间过程数据的一致性,减少数据处理过程重复的工作量和因为逻辑不一致导致的查错成本的有益效果。效果。效果。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]在训练转化率相关的模型过程中,需要对数据进行清洗转换的加工,进而得到用于训练模型的样本数据。针对不同的场景,目前采用的是单独编写该场景对应的数据清洗、转换等数据处理逻辑,或者是针对各个数据进行人工处理,使其满足相应场景下的需求。
[0003]但是,上述方式主要有以下两个问题:第一,数据处理逻辑很难得到复用,后续维护成本变高;第二,数据处理过程中相似特征的逻辑一致性很难得到保证,增加了排错成本。

技术实现思路

[0004]本专利技术实施例提供一种数据处理方法、装置、电子设备及存储介质,以解决现有的数据处理逻辑很难得到复用,后续维护成本和排错成本较高的问题。
[0005]为了解决上述技术问题,本专利技术是这样实现的:
[0006]第一方面,本专利技术实施例提供了一种数据处理方法,包括:
[0007]获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
[0008]针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
[0009]根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。
[0010]可选地,所述根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据的步骤,包括:
[0011]响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
[0012]其中,所述样本转化处理流程的数据处理过程包括:
[0013]S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
[0014]S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。
[0015]可选地,所述针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系的步骤,包括:
[0016]针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
[0017]可选地,所述多个维度包括曝光维度和点击维度,或者点击维度和用户转化维度,或者曝光维度和消费维度,或者消费维度和用户转化维度,或者消费维度和点击维度;所述物料包括广告、帖子、网页中的至少一种。
[0018]可选地,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
[0019]第二方面,本专利技术实施例提供了一种数据处理装置,包括:
[0020]数据获取模块,用于获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
[0021]数据转存模块,用于针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
[0022]数据处理模块,用于根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。
[0023]可选地,所述数据处理模块,包括:
[0024]数据处理子模块,用于响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
[0025]其中,所述样本转化处理流程的数据处理过程包括:
[0026]S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
[0027]S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。
[0028]可选地,所述数据转存模块,包括:
[0029]数据转存子模块,用于针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
[0030]可选地,所述多个维度包括曝光维度和点击维度,或者点击维度和用户转化维度,或者曝光维度和消费维度,或者消费维度和用户转化维度,或者消费维度和点击维度;所述物料包括广告、帖子、网页中的至少一种。
[0031]可选地,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
[0032]第三方面,本专利技术实施例另外提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的数据处理方法的步骤。
[0033]第四方面,本专利技术实施例另外提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方
面所述的数据处理方法的步骤。
[0034]在本专利技术实施例中,通过流程统一保证中间过程数据的一致性,取得了减少数据处理过程重复的工作量和因为逻辑不一致导致的查错成本的有益效果。
[0035]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0036]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是本专利技术实施例中的一种数据处理方法的步骤流程图;
[0038]图2是本专利技术实施例中的另一种数据处理方法的步骤流程图;
[0039]图3是本专利技术实施例中的一种数据处理装置的结构示意图;
[0040]图4是本专利技术实施例中的另本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据的步骤,包括:响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;其中,所述样本转化处理流程的数据处理过程包括:S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。3.根据权利要求1所述的方法,其特征在于,所述针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系的步骤,包括:针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述多个维度包括曝光维度和点击维度,或者点击维度和用户转化维度,或者曝光维度和消费维度,或者消费维度和用户转化维度,或者消费维度和点击维度;所述物料包括广告、帖子、网页中的至少一种。5.根据权利要求1-3中任一项所述的方法,其特征在于,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。6.一种数据处理装置,其特征在于,包括:数据获取模块,用于获取待处理的原始数据,所述原始数据中包含多个物料在...

【专利技术属性】
技术研发人员:冯祎炜
申请(专利权)人:北京五八信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1