一种大数据储存及并行处理方法技术

技术编号:16718074 阅读:26 留言:0更新日期:2017-12-05 16:28
本发明专利技术公开了一种大数据储存及并行处理方法,包括如下步骤:根据需求建立储存平台,需对海量数据的进行查询与分析处理,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。该大数据储存及并行处理方法能够对所抓取的数据进行分类别储存,能够有效提高数据的安全性以及可靠性,充分利用数据库资源,提高了现有集中式数据库的利用率,还能够对数据进行备份,以避免其丢失。

A large data storage and parallel processing method

The invention discloses a data storage and parallel processing method, which comprises the following steps: according to the requirements of establishing storage platform for query and analysis of mass data processing, data parallel mining processing, the data through the common machine learning algorithms to Hadoop platform transplantation, realize the parallel, parallel processing after the capture of data storage to storage platform, and after storage platform, its classification, storage unit and remote storage of different. The big data storage and processing method of parallelism can capture data by category data storage, can effectively improve the safety and reliability of the database, make full use of resources, improve the utilization rate of the existing centralized database, can also make a backup of data, in order to avoid the loss of.

【技术实现步骤摘要】
一种大数据储存及并行处理方法
本专利技术涉及数据储存
,尤其涉及一种大数据储存及并行处理方法。
技术介绍
随着互联网技术的飞速发展,如何对互联网信息进行有效监管成为各级网信部门亟待解决的重大课题,尤其是自媒体和新媒体技术手段不断发展变化,给网上舆论引导和信息管控提出了严峻挑战,必须不断适应新的形势变化,改进网信部门技术手段和工作平台。近年来,随着信息化与数据储存的深度融合以及物联网技术的快速发展,鉴于高速光纤数据网和无线传输已在互联网行业广泛普及,大数据蕴含大价值。大数据的存在引导人们研究“数据密集型”的应用系统,与大数据交互,识别新模式,发现新规律。而现有技术中,数据都是集中在同一的储存器内,若是发生故障,则全部数据都会受到影响,为此,我们提出了一种大数据储存及并行处理方法。
技术实现思路
本专利技术提出了一种大数据储存及并行处理方法,以解决上述
技术介绍
中提出的问题。本专利技术提出了一种大数据储存及并行处理方法,包括如下步骤:S1:根据需求建立储存平台,其具体步骤如下:A1、建立管理服务器以及多个内部存储器,之间并形成集群能够并行处理大数据请求;A2、对A1中的多个内部储存器进行编号分类,并将其记录至管理服务器内,且在内部储存器内部储存时,进行数据类别分类储存;A3、在建立多个储存单元,并设置在不同的区域,之间通过无线通信进行实时连接,以便于将数据进行分类备份,并将数据传输至多个储存单元进行保存,以避免数据的丢失;S2:实时数据抓取不同网站数据更新的策略,对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取,由于数据抓取过程有很多环节,会造成部分数据无法抓取的问题,通过对种子爬虫处理,任务调度策略处理,防止漏爬数据现象;S3:需对海量数据的进行查询与分析处理,主要包括:1)、Hive查询执行计划优化,包括MapReduce任务生成以及MapReduce间数据传输效率的优化;2)、针对MapReduce在实时性方面不足,结合MapReduce框架与并行关系数据库中思想,研究面向海量数据的分布式实时查询引擎,支持实时数据查询;3)、借鉴分析型数据库思想,结合查询负载特点的研究分布式实时查询引擎中查询优化技术,包括并行查询优化、数据高效分布、复杂多表连接和分布式缓存;S4:在经过S3的处理后,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化;S5:最后,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。优选的,在S1内的储存平台内部还设置有信号去噪、数据压缩、数据分析、数据加密以及数据解密的功能,以保证储存平台的正常运行。优选的,构建“数据密集型”的大数据储存平台,需要协调很多计算和存储资源,高效地接入和保存大范围、多尺度的监测数据,并使系统长时间保持安全可靠的运行状态,这对数据存储与分析平台提出了较高的性能要求。本专利技术提出的一种大数据储存及并行处理方法,有益效果在于:该大数据储存及并行处理方法能够对所抓取的数据进行分类别储存,能够有效提高数据的安全性以及可靠性,充分利用数据库资源,提高了现有集中式数据库的利用率,还能够对数据进行备份,以避免其丢失。具体实施方式下面结合具体实施例来对本专利技术做进一步说明。本专利技术提出了一种大数据储存及并行处理方法,包括如下步骤:S1:根据需求建立储存平台,其具体步骤如下:A1、建立管理服务器以及多个内部存储器,之间并形成集群能够并行处理大数据请求;A2、对A1中的多个内部储存器进行编号分类,并将其记录至管理服务器内,且在内部储存器内部储存时,进行数据类别分类储存,储存平台内部还设置有信号去噪、数据压缩、数据分析、数据加密以及数据解密的功能,以保证储存平台的正常运行;A3、在建立多个储存单元,并设置在不同的区域,之间通过无线通信进行实时连接,以便于将数据进行分类备份,并将数据传输至多个储存单元进行保存,以避免数据的丢失;S2:实时数据抓取不同网站数据更新的策略,对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取,由于数据抓取过程有很多环节,会造成部分数据无法抓取的问题,通过对种子爬虫处理,任务调度策略处理,防止漏爬数据现象;S3:需对海量数据的进行查询与分析处理,主要包括:1)、Hive查询执行计划优化,包括MapReduce任务生成以及MapReduce间数据传输效率的优化;2)、针对MapReduce在实时性方面不足,结合MapReduce框架与并行关系数据库中思想,研究面向海量数据的分布式实时查询引擎,支持实时数据查询;3)、借鉴分析型数据库思想,结合查询负载特点的研究分布式实时查询引擎中查询优化技术,包括并行查询优化、数据高效分布、复杂多表连接和分布式缓存;S4:在经过S3的处理后,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化;S5:最后,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。构建“数据密集型”的大数据储存平台,需要协调很多计算和存储资源,高效地接入和保存大范围、多尺度的监测数据,并使系统长时间保持安全可靠的运行状态,这对数据存储与分析平台提出了较高的性能要求。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。本文档来自技高网
...

【技术保护点】
一种大数据储存及并行处理方法,其特征在于,包括以下步骤:S1:根据需求建立储存平台,其具体步骤如下:A1、建立管理服务器以及多个内部存储器,之间并形成集群能够并行处理大数据请求;A2、对A1中的多个内部储存器进行编号分类,并将其记录至管理服务器内,且在内部储存器内部储存时,进行数据类别分类储存;A3、在建立多个储存单元,并设置在不同的区域,之间通过无线通信进行实时连接,以便于将数据进行分类备份,并将数据传输至多个储存单元进行保存,以避免数据的丢失;S2:实时数据抓取不同网站数据更新的策略,对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取,由于数据抓取过程有很多环节,会造成部分数据无法抓取的问题,通过对种子爬虫处理,任务调度策略处理,防止漏爬数据现象;S3:需对海量数据的进行查询与分析处理,主要包括:1)、Hive查询执行计划优化,包括MapReduce任务生成以及MapReduce间数据传输效率的优化;2)、针对MapReduce在实时性方面不足,结合MapReduce框架与并行关系数据库中思想,研究面向海量数据的分布式实时查询引擎,支持实时数据查询;3)、借鉴分析型数据库思想,结合查询负载特点的研究分布式实时查询引擎中查询优化技术,包括并行查询优化、数据高效分布、复杂多表连接和分布式缓存;S4:在经过S3的处理后,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化;S5:最后,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。...

【技术特征摘要】
1.一种大数据储存及并行处理方法,其特征在于,包括以下步骤:S1:根据需求建立储存平台,其具体步骤如下:A1、建立管理服务器以及多个内部存储器,之间并形成集群能够并行处理大数据请求;A2、对A1中的多个内部储存器进行编号分类,并将其记录至管理服务器内,且在内部储存器内部储存时,进行数据类别分类储存;A3、在建立多个储存单元,并设置在不同的区域,之间通过无线通信进行实时连接,以便于将数据进行分类备份,并将数据传输至多个储存单元进行保存,以避免数据的丢失;S2:实时数据抓取不同网站数据更新的策略,对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取,由于数据抓取过程有很多环节,会造成部分数据无法抓取的问题,通过对种子爬虫处理,任务调度策略处理,防止漏爬数据现象;S3:需对海量数据的进行查询与分析处理,主要包括:1)、Hive查询执行计划优化,包括MapReduce任务生成以及MapReduce间数据传输效率的优化;2)、针对MapReduce在实时性方面不足,结合MapR...

【专利技术属性】
技术研发人员:杨绪升
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1