数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:38758526 阅读:14 留言:0更新日期:2023-09-10 09:43
本公开提供了数据处理方法、装置、设备及存储介质。本公开涉及计算机技术领域,尤其涉及数据挖掘、数据分析、数据查询等人工智能技术领域。具体方案为:获取待处理数据;基于待处理数据获取目标ID对;基于目标ID对更新实时表,实时表包括第一类ID的第一打通记录;将实时表挂载到数据打通系统中各集群的离线表,离线表包括第二类ID的第二打通记录,第二打通记录至少包括第二类ID与第二类ID的第二属性信息之间的第二对应关系。根据本公开的方案,能够通过更新实时表来补充数据打通系统因离线表时效性差而缺失的部分打通率,从而提升实时ID查询的效率,提升ID识别的准确率。提升ID识别的准确率。提升ID识别的准确率。

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质


[0001]本公开涉及计算机
,尤其涉及数据挖掘、数据分析、数据查询等人工智能


技术介绍

[0002]随着大数据与人工智能的不断发展,数据处理的方法变得多样化。相关技术中,数据打通系统主要是将离线数据提供给业务方使用。但是,数据打通系统的上游数据产品线众多,数据量庞大无序,需要经过多轮任务的处理,会导致离线数据存在几天甚至一周的延迟。在使用产品线的过程中,会产生大量新的小型文本文件(cookie),cookie是一种变化率很高的身份标识号(Identity Document,ID)。但由于延迟的原因,这部分ID没有被获取。因此,导致数据打通系统的打通率和ID识别准确率较低,无法满足对于时效性要求较高的应用场景。

技术实现思路

[0003]本公开提供了一种数据处理方法、装置、设备及存储介质。
[0004]根据本公开的第一方面,提供了一种数据处理方法,包括:
[0005]获取待处理数据,待处理数据包括第一类ID和第一类ID的第一属性信息,第一类ID是随机生成的ID;
[0006]基于待处理数据获取目标ID对,该目标ID对包括第一类ID和第二类ID;
[0007]基于目标ID对更新实时表,该实时表包括第一类ID的第一打通记录,第一打通记录至少包括第一类ID与第一类ID的第一属性信息之间的第一对应关系;
[0008]将实时表挂载到数据打通系统中各集群的离线表,该离线表包括第二类ID的第二打通记录,第二打通记录至少包括第二类ID与第二类ID的第二属性信息之间的第二对应关系。
[0009]根据本公开的第二方面,提供了一种数据处理装置,包括:
[0010]第一获取模块,用于获取待处理数据,待处理数据包括第一类ID和第一类ID的第一属性信息,第一类ID是随机生成的ID;
[0011]第二获取模块,用于基于待处理数据获取目标ID对,该目标ID对包括第一类ID和第二类ID;
[0012]更新模块,用于基于目标ID对更新实时表,实时表包括第一类ID的第一打通记录,第一打通记录至少包括第一类ID与第一类ID的第一属性信息之间的第一对应关系;
[0013]挂载模块,用于将实时表挂载到数据打通系统中各集群的离线表,该离线表包括第二类ID的第二打通记录,第二打通记录至少包括第二类ID与第二类ID的第二属性信息之间的第二对应关系。
[0014]根据本公开的第三方面,提供了一种电子设备,包括:
[0015]至少一个处理器;
[0016]与至少一个处理器通信连接的存储器;
[0017]存储器存储有可以被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行本公开中任一实施例的方法。
[0018]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行根据本公开中任一实施例的方法。
[0019]根据本公开的第五方面,提供了一种计算机程序产品,包括存储在存储介质上的计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
[0020]根据本公开的方案,通过从待处理数据获取目标ID对,基于目标ID对更新实时表,将实时表挂载到数据打通系统中各集群的离线表,能够通过生成并更新实时表,来补充数据打通系统因离线表时效性差而缺失的部分打通率,从而提升实时ID查询的效率,提升ID识别的准确率。
[0021]上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
[0022]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
[0023]图1是根据本公开实施例的数据处理方法的流程示意图;
[0024]图2是根据本公开实施例的数据打通系统中实时数据处理模块的处理流程示意图;
[0025]图3是根据本公开实施例的获取目标ID对的流程示意图;
[0026]图4是根据本公开实施例的确定第二类候选ID对的置信度的流程示意图;
[0027]图5是根据本公开实施例的基于目标ID对更新实时表的流程示意图;
[0028]图6是根据本公开实施例的数据打通系统中数据灌库模块的处理流程示意图;
[0029]图7是根据本公开实施例的数据打通系统中的在线查询模块的处理流程示意图;
[0030]图8是根据本公开实施例的数据处理装置的结构示意图;
[0031]图9是根据本公开实施例的数据处理的场景示意图;
[0032]图10是用来实现本公开实施例的数据处理方法的电子设备的结构示意图。
具体实施方式
[0033]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0034]本公开的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单
元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0035]相关技术中,数据打通系统主要是将离线数据提供给业务方使用。但是,数据打通系统的上游数据产品线众多,数据量庞大且无序,需要经过多轮任务的处理,导致离线数据存在几天甚至一周的延迟。同时,用户每打开一个网页,都会产生一个cookie,每天会产生大量的新cookie,cookie是一种变化率很高的ID。但由于延迟的原因,这部分ID没有获取到,导致数据打通系统的打通率较低,也无法满足对于时效性要求较高的应用场景。
[0036]本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,提出了一种数据处理方法。通过从实时数据源获取待处理数据,生成并更新实时表,来补充数据打通系统因离线表时效性差而缺失的部分打通率,进而提高数据打通系统的整体打通率,从而提升实时ID查询的效率,提升实时ID识别的准确率。
[0037]本公开实施例提供了一种数据处理方法,应用于数据打通系统,图1是根据本公开实施例的数据处理方法的流程示意图,该数据处理方法可以应用于数据处理装置。该数据处理装置位于电子设备上。该电子设备包括但不限于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,应用于数据打通系统,包括:获取待处理数据,所述待处理数据包括第一类ID和所述第一类ID的第一属性信息,所述第一类ID是随机生成的ID;基于所述待处理数据获取目标ID对,所述目标ID对包括所述第一类ID和第二类ID;基于所述目标ID对更新实时表,所述实时表包括所述第一类ID的第一打通记录,所述第一打通记录至少包括所述第一类ID与所述第一类ID的所述第一属性信息之间的第一对应关系;将所述实时表挂载到所述数据打通系统中各集群的离线表,所述离线表包括所述第二类ID的第二打通记录,所述第二打通记录至少包括所述第二类ID与所述第二类ID的第二属性信息之间的第二对应关系。2.根据权利要求1所述的方法,其中,所述基于所述待处理数据获取目标ID对,包括:响应于基于所述待处理数据能形成所述第一类ID的第一类候选ID对,将所述第一类候选ID对作为所述第一类ID的所述目标ID对。3.根据权利要求1所述的方法,其中,所述基于所述待处理数据获取目标ID对,包括:响应于基于所述待处理数据无法形成所述第一类ID的第一类候选ID对,基于所述第一类ID的网际互连协议IP值,从所述IP值对应的IP桶内,获取所述第一类ID的至少一个第二类候选ID对;分析所述至少一个第二类候选ID对的置信度;将所述置信度不小于预设阈值的第二类候选ID对,作为所述第一类ID的所述目标ID对。4.根据权利要求3所述的方法,其中,所述分析所述至少一个第二类候选ID对的置信度,包括:利用第一预测模型预测每个第二类候选ID对的置信度,得到每个第二类候选ID对的第一置信度;利用第二预测模型预测每个第二类候选ID对的置信度,得到每个第二类候选ID对的第二置信度;根据每个第二类候选ID对的所述第一置信度和所述第二置信度,得到每个第二类候选ID对的置信度。5.根据权利要求3所述的方法,还包括:响应于从所述IP值对应的所述IP桶内无法获取所述第一类ID的所述目标ID对,在所述实时表中生成所述第一类ID的所述第一打通记录。6.根据权利要求1所述的方法,其中,所述基于所述目标ID对更新实时表,包括:分别基于所述目标ID对包括的第一类ID和第二类ID,在所述实时表中进行查询处理;响应于在所述实时表中查询到所述第一类ID,将所述第二类ID添加到所述第一类ID的第一打通列表,并更新所述第一打通列表的属性信息;响应于在所述实时表中查询到所述第二类ID,将所述第一类ID添加到所述实时表中所述第二类ID的第二打通列表,并更新所述第二打通列表的属性信息;响应于在所述实时表中未查询到所述第一类ID和所述第二类ID,基于所述第一类ID和所述第二类ID生成第三打通列表,并更新所述第三打通列表的属性信息。
7.根据权利要求1所述的方法,其中,所述基于所述待处理数据获取目标ID对,包括:基于所述待处理数据的标识信息,将所述待处理ID数据发送至所述数据打通系统中与所述标识信息匹配的第一集群;通过所述第一集群获取所述目标ID对;其中,所述基于所述目标ID对更新实时表,包括:通过所述第一集群,基于所述目标ID对更新所述第一集群的所述实时表。8.根据权利要求7所述的方法,其中,所述将所述实时表挂载到所述数据打通系统中各集群的离线表,包括:将由所述第一集群生成的所述实时表挂载到所述第一集群的所述离线表;以及将所述实时表发送至所述数据打通系统的第二集群,以供所述第二集群将所述实时表挂载到所述第二集群的所述离线表,所述第二集群是所述数据打通系统中除所述第一集群之外的集群。9.根据权利要求1所述的方法,还包括:获取通过查询接口输入的待查询ID和查询指示参数;响应于检测到所述查询指示参数为实时查询,从所述实时表中获取所述待查询ID的查询结果;响应于检测到所述查询指示参数为非实时查询或从所述实时表中未获取到所述待查询ID的查询结果,从所述离线表中获取所述待查询ID的查询结果。10.根据权利要求9所述的方法,其中,所述从所述实时表中获取所述待查询ID的查询结果,包括:获取打通深度N;基于所述打通深度N,在所述实时表中进行N次打通查询;将第N次的打通查询结果作为所述待查询ID的查询结果。11.一种数据处理装置,应用于数据打通系统,包括:第一获取模块,用于获取待处理数据,所述待处理数据包括第一类ID和所述第一类ID的第一属性信息,所述第一类ID是随机生成的ID;第二获取模块,用于基于所述待处理数据获取目标ID对,所述目标ID对包括所述第一类ID和第二类ID;更新模块,用于基于所述目标ID对更新实时表,所述实时表包括所述第一类ID的第一打通记录,所述第一打通记录至少包括所述第一类ID与所述第一类ID的所述第一属性信息之间的第一...

【专利技术属性】
技术研发人员:金博夫惠盼章越焦健
申请(专利权)人:百度中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1