【技术实现步骤摘要】
数据归一化方法、装置、计算机可读介质和电子设备
本申请涉及数据处理
,特别涉及一种数据归一化方法、装置、计算机可读介质和电子设备。
技术介绍
传统的数据归一化(从数据中提取跟个体有关的属性特征以及个体和个体间的关联关系,从而对数据进行特征梳理和归纳),需要归纳提取数据中的节点和关系,最终生成图表,最常用的是利用图数据库生成图表。利用这种方法,需要将图数据库中数据的信息属性合并到一个个体(归一化对象)的若干节点(vertex)上,同时建立这若干个节点间的关系(edge),最后,生成所需要的图表(graph)。目前,生成这种结果一般多采用具备graph、vertex、edge的网络型数据结构,比如:mongodb、neo4j等图数据库,对数据进行逐条记录逐个属性提取节点(vertex)和关系(edge),将提取节点(vertex)和关系(edge)导入图数据库中,按照图数据库自身的方法生成图表(graph)。但是,对于海量级数据(太字节(TB,计算机存储单位)及以上数据)来说,往往记录量一般都在百亿或者千亿 ...
【技术保护点】
1.一种数据归一化方法,其特征在于,包括:/n基于MapReduce计算架构,对分布式存储的待处理数据进行处理,得到初始数据;其中,所述待处理数据的格式为分布式文件系统支持的格式,所述初始数据包含多个键不相同的第一键值对;/n基于MapReduce计算架构,将所述初始数据中的多个所述第一键值对分别转化为多个第二键值对,得到所述待处理数据的归一化数据,其中,所述待处理数据的归一化数据包含多个所述第二键值对。/n
【技术特征摘要】
1.一种数据归一化方法,其特征在于,包括:
基于MapReduce计算架构,对分布式存储的待处理数据进行处理,得到初始数据;其中,所述待处理数据的格式为分布式文件系统支持的格式,所述初始数据包含多个键不相同的第一键值对;
基于MapReduce计算架构,将所述初始数据中的多个所述第一键值对分别转化为多个第二键值对,得到所述待处理数据的归一化数据,其中,所述待处理数据的归一化数据包含多个所述第二键值对。
2.根据权利要求1所述的方法,其特征在于,所述基于MapReduce计算架构,对分布式存储的待处理数据进行处理,得到初始数据,包括:基于MapReduce计算架构,
对分布式存储的所述待处理数据进行分割处理,得到第一结果数组;
建立所述第一结果数组的要素标记数组,其中,所述要素标记数组中的要素标记与所述第一结果数组中的元素一一对应;
根据所述第一结果数组和所述要素标记数组,得到第二结果数组,其中,所述第二结果数组中包含的每个元素由所述第一结果数组中的非空值元素、所述非空值元素对应的所述要素标记数组中的所述要素标记拼接得到;
对所述第二结果数组进行遍历,提取所述第二结果数组中的每个元素,将所述第二结果数组中的每个元素与所述第二结果数组组成一个第一初始键值对;
对多个所述第一初始键值对进行转化,得到多个键不相同的第一键值对,其中,多个所述第一键值对构成所述初始数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一结果数组和所述要素标记数组,得到第二结果数组,包括:
提取所述第一结果数组中的非空值元素,以及,所述非空值元素对应的所述要素标记数组中的所述要素标记;
对所述非空值元素和所述非空值元素对应的所述要素标记进行拼接,构成所述第二结果数组的多个元素,以得到所述第二结果数组。
4.根据权利要求2所述的方法,其特征在于,所述对多个所述第一初始键值对进行转化,得到多个键不相同的第一键值对,包括:对多个所述第一初始键值对中键相同的所述第一初始键值对的值进行并集处理,并对并集处理的结果进行去重处理,得到多个键不相同的所述第一键值对。
5.根据权利要求1所述的方法,其特征在于,所述基于MapReduce计算架构,将所述初始数据中的多个所述第一键值对分别转化为多个第二键值对,得到所述待处理数据的归一化数据,包括:基于MapReduce计算架构,
提取所述初始数据中的多个所述第一键值对的值,生成中间结果数组;
对所述中间结果数组进行遍历,提取所述中间结果数组中的每一个元素,将所述中间结果数组中的每个元素与所述中间结果数组组成一个第二初始键值对;
对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。