数据处理的方法和装置制造方法及图纸

技术编号:33996768 阅读:36 留言:0更新日期:2022-07-02 11:04
本申请提供了一种数据处理的方法和装置,该方法包括:对原始数据进行处理,得到多个第一键值对,该第一键值对包括第一关键字段的内容和原始数据中与该第一关键字段的内容对应的用户标识数据;基于多个第一键值对和用户属性数据,得到多个第二键值对,该第二键值对包括第二关键字段的内容和多个第一键值对中与该第二关键字段的内容对应的用户标识数据,该第二关键字段包括该第一关键字段和该用户属性数据;按照该第二关键字段,对多个第二键值对中的用户标识数据进行去重处理,得到多个第三键值对。上述数据处理的方法和装置,有利于提高海量数据在进行关联统计存储时的计算效率,同时可以满足实时性的需求。同时可以满足实时性的需求。同时可以满足实时性的需求。

【技术实现步骤摘要】
数据处理的方法和装置


[0001]本申请涉及大数据领域,尤其涉及一种数据处理的方法和装置。

技术介绍

[0002]在对多个数据表中的数据进行处理时,可以根据关联条件将多个数据表中的数据进行关联。但在大数据环境下,数据表中的数据量可以达到百亿甚至千亿,对多个海量数据的数据集进行关联计算比较困难,而且在对海量数据进行汇总和统计时还需要保证数据的实时性。
[0003]目前,在分布式计算中,通过使用切片广播对照的方法实现对海量数据的关联计算,但是该方法对海量数据进行关联计算时,计算效率不高,且难以满足数据在关联统计存储时实时性的需求。

技术实现思路

[0004]本申请提供一种数据处理的方法和装置,有利于提高海量数据在进行关联统计存储时的计算效率,同时可以满足实时性的需求。
[0005]第一方面,提供了一种数据处理的方法,包括:对原始数据进行处理,得到多个第一键值对,所述第一键值对包括第一关键字段的内容和所述原始数据中与所述第一关键字段的内容对应的用户标识数据;基于所述多个第一键值对和用户属性数据,得到多个第二键值对,所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:对原始数据进行处理,得到多个第一键值对,所述第一键值对包括第一关键字段的内容和所述原始数据中与所述第一关键字段的内容对应的用户标识数据;基于所述多个第一键值对和用户属性数据,得到多个第二键值对,所述第二键值对包括第二关键字段的内容和所述多个第一键值对中与所述第二关键字段的内容对应的用户标识数据,所述第二关键字段包括所述第一关键字段和所述用户属性数据;按照所述第二关键字段,对所述多个第二键值对中的用户标识数据进行去重处理,得到多个第三键值对。2.根据权利要求1所述的方法,其特征在于,所述在所述多个第一键值对的关键字段中添加用户属性数据,得到多个第二键值对之前,所述方法还包括:根据所述用户标识数据,从服务器获取所述用户属性数据。3.根据权利要求1所述的方法,其特征在于,在所述得到多个第三键值对之后,所述方法还包括:跨集群将所述多个第三键值对导入数据库。4.根据权利要求1所述的方法,其特征在于,在所述第三关键字段中,不同字段的内容之间具有第一分隔符,不同用户标识数据之间具有第二分隔符。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一关键字段包括:地域标识字段和/或日志产生时间字段。6.一种数据处理的装置,其特征在于,包括:处理模块,用于对原...

【专利技术属性】
技术研发人员:宋雨伦谢云龙肖威闫龙曲立锴
申请(专利权)人:联通大数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1