【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
[0001]本公开涉及计算机
,尤其涉及数据挖掘、数据分析、数据查询等人工智能
技术介绍
[0002]随着大数据与人工智能的不断发展,数据处理的方法变得多样化。相关技术中,数据打通系统主要是将离线数据提供给业务方使用。但是,数据打通系统的上游数据产品线众多,数据量庞大无序,需要经过多轮任务的处理,会导致离线数据存在几天甚至一周的延迟。在使用产品线的过程中,会产生大量新的小型文本文件(cookie),cookie是一种变化率很高的身份标识号(Identity Document,ID)。但由于延迟的原因,这部分ID没有被获取。因此,导致数据打通系统的打通率和ID识别准确率较低,无法满足对于时效性要求较高的应用场景。
技术实现思路
[0003]本公开提供了一种数据处理方法、装置、设备及存储介质。
[0004]根据本公开的第一方面,提供了一种数据处理方法,包括:
[0005]获取待处理数据,待处理数据包括第一类ID和第一类ID的第一属性信息,第一类ID是随机生成的ID;
[0006]基于待处理数据获取目标ID对,该目标ID对包括第一类ID和第二类ID;
[0007]基于目标ID对更新实时表,该实时表包括第一类ID的第一打通记录,第一打通记录至少包括第一类ID与第一类ID的第一属性信息之间的第一对应关系;
[0008]将实时表挂载到数据打通系统中各集群的离线表,该离线表包括第二类ID的第二打通记录,第二打通记录至少包括第 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,应用于数据打通系统,包括:获取待处理数据,所述待处理数据包括第一类ID和所述第一类ID的第一属性信息,所述第一类ID是随机生成的ID;基于所述待处理数据获取目标ID对,所述目标ID对包括所述第一类ID和第二类ID;基于所述目标ID对更新实时表,所述实时表包括所述第一类ID的第一打通记录,所述第一打通记录至少包括所述第一类ID与所述第一类ID的所述第一属性信息之间的第一对应关系;将所述实时表挂载到所述数据打通系统中各集群的离线表,所述离线表包括所述第二类ID的第二打通记录,所述第二打通记录至少包括所述第二类ID与所述第二类ID的第二属性信息之间的第二对应关系。2.根据权利要求1所述的方法,其中,所述基于所述待处理数据获取目标ID对,包括:响应于基于所述待处理数据能形成所述第一类ID的第一类候选ID对,将所述第一类候选ID对作为所述第一类ID的所述目标ID对。3.根据权利要求1所述的方法,其中,所述基于所述待处理数据获取目标ID对,包括:响应于基于所述待处理数据无法形成所述第一类ID的第一类候选ID对,基于所述第一类ID的网际互连协议IP值,从所述IP值对应的IP桶内,获取所述第一类ID的至少一个第二类候选ID对;分析所述至少一个第二类候选ID对的置信度;将所述置信度不小于预设阈值的第二类候选ID对,作为所述第一类ID的所述目标ID对。4.根据权利要求3所述的方法,其中,所述分析所述至少一个第二类候选ID对的置信度,包括:利用第一预测模型预测每个第二类候选ID对的置信度,得到每个第二类候选ID对的第一置信度;利用第二预测模型预测每个第二类候选ID对的置信度,得到每个第二类候选ID对的第二置信度;根据每个第二类候选ID对的所述第一置信度和所述第二置信度,得到每个第二类候选ID对的置信度。5.根据权利要求3所述的方法,还包括:响应于从所述IP值对应的所述IP桶内无法获取所述第一类ID的所述目标ID对,在所述实时表中生成所述第一类ID的所述第一打通记录。6.根据权利要求1所述的方法,其中,所述基于所述目标ID对更新实时表,包括:分别基于所述目标ID对包括的第一类ID和第二类ID,在所述实时表中进行查询处理;响应于在所述实时表中查询到所述第一类ID,将所述第二类ID添加到所述第一类ID的第一打通列表,并更新所述第一打通列表的属性信息;响应于在所述实时表中查询到所述第二类ID,将所述第一类ID添加到所述实时表中所述第二类ID的第二打通列表,并更新所述第二打通列表的属性信息;响应于在所述实时表中未查询到所述第一类ID和所述第二类ID,基于所述第一类ID和所述第二类ID生成第三打通列表,并更新所述第三打通列表的属性信息。
7.根据权利要求1所述的方法,其中,所述基于所述待处理数据获取目标ID对,包括:基于所述待处理数据的标识信息,将所述待处理ID数据发送至所述数据打通系统中与所述标识信息匹配的第一集群;通过所述第一集群获取所述目标ID对;其中,所述基于所述目标ID对更新实时表,包括:通过所述第一集群,基于所述目标ID对更新所述第一集群的所述实时表。8.根据权利要求7所述的方法,其中,所述将所述实时表挂载到所述数据打通系统中各集群的离线表,包括:将由所述第一集群生成的所述实时表挂载到所述第一集群的所述离线表;以及将所述实时表发送至所述数据打通系统的第二集群,以供所述第二集群将所述实时表挂载到所述第二集群的所述离线表,所述第二集群是所述数据打通系统中除所述第一集群之外的集群。9.根据权利要求1所述的方法,还包括:获取通过查询接口输入的待查询ID和查询指示参数;响应于检测到所述查询指示参数为实时查询,从所述实时表中获取所述待查询ID的查询结果;响应于检测到所述查询指示参数为非实时查询或从所述实时表中未获取到所述待查询ID的查询结果,从所述离线表中获取所述待查询ID的查询结果。10.根据权利要求9所述的方法,其中,所述从所述实时表中获取所述待查询ID的查询结果,包括:获取打通深度N;基于所述打通深度N,在所述实时表中进行N次打通查询;将第N次的打通查询结果作为所述待查询ID的查询结果。11.一种数据处理装置,应用于数据打通系统,包括:第一获取模块,用于获取待处理数据,所述待处理数据包括第一类ID和所述第一类ID的第一属性信息,所述第一类ID是随机生成的ID;第二获取模块,用于基于所述待处理数据获取目标ID对,所述目标ID对包括所述第一类ID和第二类ID;更新模块,用于基于所述目标ID对更新实时表,所述实时表包括所述第一类ID的第一打通记录,所述第一打通记录至少包括所述第一类ID与所述第一类ID的所述第一属性信息之间的第一...
【专利技术属性】
技术研发人员:金博夫,惠盼,章越,焦健,
申请(专利权)人:百度中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。