一种大数据储存及并行处理方法技术

技术编号：16718074 阅读：26 留言：0更新日期：2017-12-05 16:28

本发明专利技术公开了一种大数据储存及并行处理方法，包括如下步骤：根据需求建立储存平台，需对海量数据的进行查询与分析处理，对数据进行并行挖掘处理，将数据通过常见机器学习算法到Hadoop平台的移植，实现其并行化，将并行处理后抓取的数据储存至储存平台内，并经过储存平台处理，将其分类，并远程储存不同的储存单元。该大数据储存及并行处理方法能够对所抓取的数据进行分类别储存，能够有效提高数据的安全性以及可靠性，充分利用数据库资源，提高了现有集中式数据库的利用率，还能够对数据进行备份，以避免其丢失。

A large data storage and parallel processing method

The invention discloses a data storage and parallel processing method, which comprises the following steps: according to the requirements of establishing storage platform for query and analysis of mass data processing, data parallel mining processing, the data through the common machine learning algorithms to Hadoop platform transplantation, realize the parallel, parallel processing after the capture of data storage to storage platform, and after storage platform, its classification, storage unit and remote storage of different. The big data storage and processing method of parallelism can capture data by category data storage, can effectively improve the safety and reliability of the database, make full use of resources, improve the utilization rate of the existing centralized database, can also make a backup of data, in order to avoid the loss of.

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据储存及并行处理方法
本专利技术涉及数据储存
，尤其涉及一种大数据储存及并行处理方法。
技术介绍
随着互联网技术的飞速发展，如何对互联网信息进行有效监管成为各级网信部门亟待解决的重大课题，尤其是自媒体和新媒体技术手段不断发展变化，给网上舆论引导和信息管控提出了严峻挑战，必须不断适应新的形势变化，改进网信部门技术手段和工作平台。近年来，随着信息化与数据储存的深度融合以及物联网技术的快速发展，鉴于高速光纤数据网和无线传输已在互联网行业广泛普及，大数据蕴含大价值。大数据的存在引导人们研究“数据密集型”的应用系统，与大数据交互，识别新模式，发现新规律。而现有技术中，数据都是集中在同一的储存器内，若是发生故障，则全部数据都会受到影响，为此，我们提出了一种大数据储存及并行处理方法。
技术实现思路
本专利技术提出了一种大数据储存及并行处理方法，以解决上述
技术介绍
中提出的问题。本专利技术提出了一种大数据储存及并行处理方法，包括如下步骤：S1：根据需求建立储存平台，其具体步骤如下：A1、建立管理服务器以及多个内部存储器，之间并形成集群能够并行处理大数据请求；A2、对A1中的多个内部储存器进行编号分类，并将其记录至管理服务器内，且在内部储存器内部储存时，进行数据类别分类储存；A3、在建立多个储存单元，并设置在不同的区域，之间通过无线通信进行实时连接，以便于将数据进行分类备份，并将数据传输至多个储存单元进行保存，以避免数据的丢失；S2：实时数据抓取不同网站数据更新的策略，对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取，由于数据抓取过程有很多环节，会造...

【技术保护点】
一种大数据储存及并行处理方法，其特征在于，包括以下步骤：S1：根据需求建立储存平台，其具体步骤如下：A1、建立管理服务器以及多个内部存储器，之间并形成集群能够并行处理大数据请求；A2、对A1中的多个内部储存器进行编号分类，并将其记录至管理服务器内，且在内部储存器内部储存时，进行数据类别分类储存；A3、在建立多个储存单元，并设置在不同的区域，之间通过无线通信进行实时连接，以便于将数据进行分类备份，并将数据传输至多个储存单元进行保存，以避免数据的丢失；S2：实时数据抓取不同网站数据更新的策略，对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取，由于数据抓取过程有很多环节，会造成部分数据无法抓取的问题，通过对种子爬虫处理，任务调度策略处理，防止漏爬数据现象；S3：需对海量数据的进行查询与分析处理，主要包括：1)、Hive查询执行计划优化，包括MapReduce任务生成以及MapReduce间数据传输效率的优化；2)、针对MapReduce在实时性方面不足，结合MapReduce框架与并行关系数据库中思想，研究面向海量数据的分布式实时查询引擎，支持实时数据查询；3)、借鉴分析型数...

【技术特征摘要】
1.一种大数据储存及并行处理方法，其特征在于，包括以下步骤：S1：根据需求建立储存平台，其具体步骤如下：A1、建立管理服务器以及多个内部存储器，之间并形成集群能够并行处理大数据请求；A2、对A1中的多个内部储存器进行编号分类，并将其记录至管理服务器内，且在内部储存器内部储存时，进行数据类别分类储存；A3、在建立多个储存单元，并设置在不同的区域，之间通过无线通信进行实时连接，以便于将数据进行分类备份，并将数据传输至多个储存单元进行保存，以避免数据的丢失；S2：实时数据抓取不同网站数据更新的策略，对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取，由于数据抓取过程有很多环节，会造成部分数据无法抓取的问题，通过对种子爬虫处理，任务调度策略处理，防止漏爬数据现象；S3：需对海量数据的进行查询与分析处理，主要包括：1)、Hive查询执行计划优化，包括MapReduce任务生成以及MapReduce间数据传输效率的优化；2)、针对MapReduce在实时性方面不足，结合MapR...

【专利技术属性】
技术研发人员：杨绪升，
申请(专利权)人：武汉烽火普天信息技术有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人