一种大数据平台上的电力数据去重方法技术

技术编号：18084087 阅读：36 留言：0更新日期：2018-05-31 12:34

本发明专利技术涉及一种大数据平台上的电力数据去重方法,本发明专利技术重复数据删除使用的总体架构为分布式：分布式的总体架构通过把去重过程分布到多个节点上执行,从而避免系统瓶颈和单点故障。本发明专利技术对数据进行判重之前，会对数据内容本身进行哈希计算，将不定长度的文件内容转化为固定长度的指纹可以大大地提高判重的效率。哈希计算采用两种类型的算法：MD5算法，SHA‑1算法。使用两种函数进行计算，这减少了些函数都存在着数据冲突的可能性，即不同的数据内容可能对应同一个数据哈希值。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据平台上的电力数据去重方法
本专利技术涉及一种大数据平台上的电力数据去重方法。
技术介绍
随着信息技术的不断发展，电力信息管理系统作为大型企业生产信息化的重要基础数据平台，产生了大量的数据。以电力系统为例，一方面其数据规模越来越大，其中用电信息采集、调度等系统大的数据规模预计将达到千万甚至上亿规模，数据存储容量到达PB字节以上。另一方面数据的类型越来越多：时序数据、关系型数据、音频数据、视频数据、文档数据等等，数据类型越来越多样。常规的关系数据库根本无法应对如此高速复杂数据处理的挑战，因此，越来越多的电力数据存储在大数据平台。这里边有很多的重复数据，占用了大量的存储资源，因此，需要对电力数据进行去除重复数据的处理。
技术实现思路
本专利技术提供一种大数据平台上的电力数据去重方法，本专利技术所采用的技术方案是：所述的大数据平台上的电力数据去重方法为分布式的总体架构：分布式的总体架构通过把去重过程分布到多个节点上执行从而避免系统瓶颈和单点故障;所述的方法所指去重域指的是当用户上传数据的时候，判重过程中数据的对比对象的集合;基于此，去重域分为两类：基于单用户的本地去重域；基于所有用户的全局去重域;在电力数据去重的时候，在客户端采用单用户的本地去重域，在服务端采用基于所有用户的全局去重域;去重的可选位置有两种：客户端的源端去重和服务器端的目的端去重;源端去重在用户实际上传数据之前首先对数据的唯一性进行判定然后只传送新的数据到服务器端;目的端的去重中，所有的用户数据都会直接传递给服务器端;然后服务器端会利用后台进程对用户的文件进行指纹计算、数据判重以及后续的重复...
一种大数据平台上的电力数据去重方法

【技术保护点】
一种大数据平台上的电力数据去重方法，其特征在于, 所述的大数据平台上的电力数据去重方法为分布式的总体架构：分布式的总体架构通过把去重过程分布到多个节点上执行;所述的方法所指去重域指的是当用户上传数据的时候，判重过程中数据的对比对象的集合;基于此，去重域分为两类：基于单用户的本地去重域；基于所有用户的全局去重域;在电力数据去重的时候，在客户端采用单用户的本地去重域，在服务端采用基于所有用户的全局去重域;去重的可选位置有两种：客户端的源端去重和服务器端的目的端去重;源端去重在用户实际上传数据之前首先对数据的唯一性进行判定然后只传送新的数据到服务器端;目的端的去重中，所有的用户数据都会直接传递给服务器端;然后服务器端会利用后台进程对用户的文件进行指纹计算、数据判重以及后续的重复数据删除工作;对数据进行判重之前，会对数据内容本身进行哈希计算，将不定长度的文件内容转化为固定长度的指纹;哈希计算采用两种类型的算法： MD5 算法，SHA‑1 算法;设计的去重粒度有两种：文件级和块级:文件级的去重粒度将整个文件作为操作的对象和基本单位，而块级的去重会首先将一个文件划分成多个更小的数据块然后执行去重;...

【技术特征摘要】
1.一种大数据平台上的电力数据去重方法，其特征在于,所述的大数据平台上的电力数据去重方法为分布式的总体架构：分布式的总体架构通过把去重过程分布到多个节点上执行;所述的方法所指去重域指的是当用户上传数据的时候，判重过程中数据的对比对象的集合;基于此，去重域分为两类：基于单用户的本地去重域；基于所有用户的全局去重域;在电力数据去重的时候，在客户端采用单用户的本地去重域，在服务端采用基于所有用户的全局去重域;去重的可选位置有两种：客户端的源端去重和服务器端的目的端去重;源端去重在用户实际上传数据之前首先对数据的唯一性进行判定然后只传送新的数据到服务器端;目的端的去重中，所有的用户数据都会直接传递给服务器端;然后服务器端会利用后台进程对用户的文件进行指纹计算、数据判重以及后续的重复数据删除工作;对数据进行判重之前，会对数据内容本身进行哈希计算，将不定长度的文件内容转化为固定长度的指纹;哈希计算采用两种类型的算法：MD5算法，SHA-1算法;设计的去重粒度有两种：文件级和块级:文件级的去重粒度将整个文件作为操作的对象和基本单位，而块级的去重会首先将一个文件划分成多个更小的数据块然后执行去重;对于非结构化数据采用文件级去重，对于结构化数据采用块级去重;所述的方法获取存储于大数据集群中任意一个或多个节点中，或者分布于任意资源中的电力大数据，按照大数据集群系统的指定输入类格式，对获得的电力数据进行映射处理，按照所述大数据集群系统的归集框架的指定类格式，对所述映射处理的结果，进行归集，归集处理的结果是对电力数据去重的结果;具体步骤：先利用大数据...

【专利技术属性】
技术研发人员：邹保平，赖伟平，张杨华，林佳能，林笔星，苏志勇，陈明辉，林庆瑞，林宇，徐禄，
申请(专利权)人：国网信通亿力科技有限责任公司，国家电网公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人