针对分布式特性对大数据进行预处理的系统及其预处理方法技术方案

技术编号:15840445 阅读:45 留言:0更新日期:2017-07-18 16:47
本发明专利技术公开了一种针对分布式特性对大数据进行预处理的系统,包括:预处理适配器,为原始数据预处理提供了入口,分为自动化预处理适配器和半自动化预处理适配器;数据处理模块,将预处理适配器发送来的数据按照指定规则和统一标准的数据格式进行数据块的划分,划分后的数据块分布到不同的存储节点上,相互具有关联的数据划分在同一数据块中,且数据块之间不具备关联性;分布式存储模块,设置多个存储节点,用于存储数据处理模块发送的数据块。本发明专利技术还提供了一种针对分布式特性对大数据进行预处理的方法。本发明专利技术能大幅提升了大数据分布式计算和挖掘分析的准确度和效率。

A system for preprocessing large data for distributed characteristics and a preprocessing method thereof

The invention discloses a method for distributed characteristics of large data pretreatment system, including: pretreatment adapter, provides the entrance for the pre-processing of the original data, divided into automated and semi automated adapter pretreatment pretreatment adapter; data processing module, in accordance with the specified rules and standard data format pretreatment adapter the data sent into data blocks, block distribution of the divided data to different storage nodes, each having associated data partition in the same data block, and does not have the relevance between data blocks; distributed storage module is provided with a plurality of storage nodes for storing data block data processing module to send. The invention also provides a method for preprocessing large data according to distributed characteristics. The invention can greatly improve the accuracy and efficiency of large data distributed computing and mining analysis.

【技术实现步骤摘要】
针对分布式特性对大数据进行预处理的系统及其预处理方法
本专利技术涉及计算机领域,特别是涉及一种针对大数据的分布式特性对大数据进行预处理的系统。本专利技术还涉及一种针对大数据的分布式特性对大数据进行预处理的方法
技术介绍
大数据技术发展迅猛,数据技术从早期在单机上处理单一类型的数据,发展到当前在计算机集群上处理多类型的数据,实现时间宽松的数据分析应用。随着数据量发展到PB、EB级甚至更大,并且要求更快的处理分析时间,大数据专用计算机、异地分布式计算机集群、多类型多来源数据的处理和分析、数据网络等复杂结构数据的分析、秒级时间分析等通用技术以及各种面向领域的应用技术是大数据技术的发展趋势。以HDFS、GFS、MapReduce、Hadoop、Spark、Storm、HBase、MongoDB等为代表的大数据通用技术和开源项目迅猛发展,大数据预处理技术是大数据处理过程中必不可少的一个环节,这些大数据处理技术都引入了分布式计算与分布式挖掘分析的概念。大数据信息来源复杂,数据结构多样,需采用大数据预处理技术对采集到的数据进行预处理,将信息制定为统一标准的数据规范,从而支撑后续的数据计算和挖掘分析本文档来自技高网...
针对分布式特性对大数据进行预处理的系统及其预处理方法

【技术保护点】
一种针对分布式特性对大数据进行预处理的系统,其特征在于,包括:预处理适配器、数据处理模块和分布式存储模块;预处理适配器,为原始数据预处理提供了入口并将原始数据转化为目标格式的数据,分为自动化预处理适配器和半自动化预处理适配器;自动化预处理适配器,根据不同的数据源格式设置不同的自动化适配器,将原始数据转化为目标格式的数据;半自动化预处理适配器,通过对开放的标准预处理接口进行二次开发或按照自动化预处理适配器的标准添加相应的配置文件,将原始数据转化为目标格式的数据或满足自动化预处理适配器格式要求的数据;数据处理模块,将预处理适配器发送来的数据按照指定规则和统一标准的数据格式进行数据块的划分,划分后的...

【技术特征摘要】
1.一种针对分布式特性对大数据进行预处理的系统,其特征在于,包括:预处理适配器、数据处理模块和分布式存储模块;预处理适配器,为原始数据预处理提供了入口并将原始数据转化为目标格式的数据,分为自动化预处理适配器和半自动化预处理适配器;自动化预处理适配器,根据不同的数据源格式设置不同的自动化适配器,将原始数据转化为目标格式的数据;半自动化预处理适配器,通过对开放的标准预处理接口进行二次开发或按照自动化预处理适配器的标准添加相应的配置文件,将原始数据转化为目标格式的数据或满足自动化预处理适配器格式要求的数据;数据处理模块,将预处理适配器发送来的数据按照指定规则和统一标准的数据格式进行数据块的划分,划分后的数据块分布到不同的存储节点上,符合预设关联计算规则的数据划分在同一数据块中,且数据块之间不具备关联性;分布式存储模块,设置多个存储节点,用于存储数据处理模块发送的数据块。2.如权利要求1所述的针对分布式特性对大数据进行预处理的系统,其特征在于:数据处理模块进行数据块划分的指定规则为:数据的分布式计算算法、分布式挖掘分析算法和分布式挖掘分析算法对应的数学模型。3.如权利要求2所述的针对分布式特性对大数据进行预处理的系统,其特征在于:针对分布式计算算法对数据块进行划分时,通过以下方式实现:数据聚合,通过数据的排序、分类汇总、数据分组操作将数据集成为数据块;数据重组,根据特定的规则,提取相应数据项,重新组合为新的数据块;数据关联,通过设定关联数据规则,将数据项之间满足关联规则的数据划分为一个数据块;数据切分,在数据聚合、数据关联和数据重组操作的基础上,针对分布式计算中不同数据块之间或不同机器的数据之间需按照设定的计算模型进行数据计算,根据业务需求将数据按指定规则进行数据切分,从而将数据有序分布在不同的节点上;计算模型,即根据业务需求抽象出的数学公式;指定规则,包括数据类别、数据大小或计算数据中可进行数据划分的数据项。4.如权利要求2所述的针对分布式特性对大数据进行预处理的系统,其特征在于:针对分布式挖掘分析算法对数据进行划分时,通过以下方式实现:数据信息提取,根据分析算法的参数需求,提取出需要分析的数据项,并存储在相同的数据节点上;数据处理,在原始数据的基础上,根据业务分析目标,设定相应的计算公式,通过已有数据项之间的计算产生新的数据项;挖掘分析算法数据格式转换,将原始数据转换为挖掘分析算法要求的数据格式。5.如权利要求2所述的针对分布式特性对大数据进行预处理的系统,其特征在于:采用分布式挖掘分析算法对应的数学模型进行数据块划分时,通过以下方式实现:通过数据格式转换和数据模型提取,提取出数学模型所需的数据项、数据类型和数据格式,将数据分布到不同的节点上;数学模型数据格式转换,将原始数据转换为数学模型所需的数据格式;数据模型提取,根...

【专利技术属性】
技术研发人员:顾青梁佐泉谢超梁艳敏王宁宁冯四风赵艳红田文晋王亚红黄奚芳
申请(专利权)人:普华诚信信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1