一种预处理增强的大数据处理系统及方法技术方案

技术编号:24121216 阅读:45 留言:0更新日期:2020-05-13 03:08
本发明专利技术涉及计算机系统技术领域,且公开了一种预处理增强的大数据处理系统及方法,包括采集模块、所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。通过采集模块对互联网众多数据进行挑选目标性采集,在大数据预处理模块实现对于原始数据进行处理,分析模块的处理效率,最终将有效数据输入至存储模块进行存储,方便以后的利用,从而提高了数据处理速度,筛选储存降低了储存数据所需的容量。

【技术实现步骤摘要】
一种预处理增强的大数据处理系统及方法
本专利技术涉及计算机系统
,具体为一种预处理增强的大数据处理系统及方法。
技术介绍
随着我国计算机及互联网的飞速发展,越来越多的数据信息充斥在各个平台,电子信息数据逐渐成为人们研究的重点,人们日常生活均离不开各种各样的数据,进而大数据成为了目前研究的热点。数据暴增的年代,无法估计电子设备中在全球的存储数量,与此同时,物联网中机器设备产生的数据远远超过个人所产生的数据,网上公开发布的数据也在逐年递增,这些都将产生巨量的数据。我们遇到的问题却很类似,在硬盘存储容量一直不断提升的同时,访问速度并没有与时俱进,因此无论是解决硬件故障问题的Hadoop文件系统HDFS,还是以某种方式结合大部分数据完成分析的MapReduce编程模型,都在解决对数据的读/写问题。数据处理系统的主要功能是从众多外部系统中,采集相关的业务数据,一起存储到数据处理系统的数据库中。系统内部对所有的原始数据通过一系列处理和分析、格式转换之后,存储到数据库的基础库中;最后还需要进行一系列的数据转换到相应的数据集,供其它上层数据应用组件进行专题分析或者展示。根据数据的传统流转流程,一般会有以下几个模块:数据采集、数据存储、数据计算、数据分析和数据展示等等。现有的大数据处理系统存在着大数据的数据来源众多,数据量大,导致对于数据处理的硬件要求依旧较高,这就限制了大数据技术的进一步普及,且传统处理系统速度慢、效率低和系统功能不完善的问题有待解决。
技术实现思路
[专利技术目的]现有的大数据处理系统数据源多、数据量大、且面临着可靠性和可扩展性问题,用户可能会存储海量的数据,同时数据规模有持续增长的趋势,因此提出一种预处理增强的大数据处理系统及方法来改善目前大数据处理系统功能不完善,通用性差和效率低的问题。[技术方案]本专利技术方案主要包括以下内容:为实现上述处理速度快,筛选储存以及使系统越来越完善的目的,本专利技术提供如下技术方案:一种预处理增强的大数据处理系统,包括采集模块、所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。基于一种预处理增强的大数据处理系统,对此提出一种大数据处理方法,步骤如下:S1:采集模块进行主动搜集所需的元数据,例如客户端数据、数据库数据、服务器数据或者第三方数据等等,进行打包传送至输入模块中;S2:根据S1中采集模块将数据打包传送至输入模块后,输入模块进行主动将数据发送至预处理模块进行预处理,传输过程根据数据的类型来选择传输方式,当数据是流式数据时,将采用Kafka、storm等框架;而当数据是批式数据时,将采用MapReduce批处理模型;S3:根据S2中预处理模块在收到元数据后,将数据进行解析、解码、填充和纠错等一系列程序,将数据预处理;解析:接收到来自输入模块的数据时,先运行解析脚本,将传过来的数据转换成XML或者JSON格式数据,再进行业务处理;平台下发数据时,也会先通过脚本将数据转换为模块可以接收的数据格式,再下发给下层模块;解码:在计算机网络中,需要通过网络实现资源共享和数据传输,因此当链接的双方信号形式不一样,例如当使用的通信网信号形式和传输模块的信号形式不一样时,就必须进行信号形式的转换,接收方进行的信号形式的转换就是解码;填充:在处理数据时,很多时候都会遇到数据缺失值的情况,面对数据缺失值,简单的方法可以是在连续型变量中填充中位数、平均数等,在离散型变量中填充众数,其次我们可以考虑采用深度学习的方法例如K-means插值、混合高斯分布插值等来填充数据;纠错:录入数据时,有差错是难免的,随着时间的推移、工作的突进,数据需要补充和修正,数据的完整、准确是动态的,要保持基础数据的正确,关键是要建立尽快纠正错误数据的机制,即审核-纠正-反馈;S4:根据S3中将数据进行一系列预处理后,将处理后的数据发送至分析模块进行分析,将有利的数据进行筛选而后传输至输出模块;S5:根据S1、S2、S3和S4中将数据进行采集、输入、预处理和分析后传输至输出模块,输出模块将数据主动传输至存储模块进行储存,若数据格式为文档型,则选用MongoDB文档型数据库;而若数据是结构化的,则采用关系型数据库存储;当数据达到很大规模时,将首选HDFS存储。[有益效果]本专利技术是一种计算机网络系统,通过采集模块对互联网众多数据进行挑选目标性采集,在大数据预处理模块实现对于原始数据进行解析、解码、填充和纠错等一系列程序处理,分析模块进行精炼和提取,降低数据的占用空间并提高后续的处理效率,最终将有效数据输入至存储模块进行存储,方便以后的利用,从而提高了数据处理速度,筛选储存降低了储存数据所需的容量。作为优化,所述预处理模块分为四个部分,分别为解析、解码、填充和纠错。作为优化,所述预处理模块用于接收大数据采集模块采集的用户行为大数据。[附图说明]图1为本专利技术系统框架图。[具体实施方式]以下结合附图和具体实例对本专利技术做具体的介绍。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,一种预处理增强的大数据处理系统,包括采集模块、所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。基于一种预处理增强的大数据处理系统,对此提出一种大数据处理方法,步骤如下:S1:采集模块进行主动搜集所需的元数据,例如客户端数据、数据库数据、服务器数据或者第三方数据等等,进行打包传送至输入模块中;S2:根据S1中采集模块将数据打包传送至输入模块后,输入模块进行主动将数据发送至预处理模块进行预处理,传输过程根据数据的类型来选择传输方式,当数据是流式数据时,将采用Kafka、storm等框架;而当数据是批式数据时,将采用MapReduce批处理模型;S3:根据S2中预处理模块在收到元数据后,将数据进行解析、解码、填充和纠错等一系列程序,将数据预处理;解析:接收到来自输入模块的数据时,先运行解析脚本,将传过来的数据转换成XML或者JSON格式数据,再进行业务处理;平台下发数据时,也会先通过脚本将数据转换为模块可以接收的数据格式,再下发给下层模块;解码:在计算机网络中,需要通过网络实现资源共享和数据传输本文档来自技高网...

【技术保护点】
1.一种预处理增强的大数据处理系统,包括采集模块、其特征在于所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。/n

【技术特征摘要】
1.一种预处理增强的大数据处理系统,包括采集模块、其特征在于所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。


2.根据权利要求1所述的一种预处理增强的大数据处理系统,对此提出一种大数据处理方法,其特征在于,步骤如下:
S1:采集模块进行主动搜集所需的元数据,例如客户端数据、数据库数据、服务器数据或者第三方数据等等,进行打包传送至输入模块中;
S2:根据S1中采集模块将数据打包传送至输入模块后,输入模块进行主动将数据发送至预处理模块进行预处理,传输过程根据数据的类型来选择传输方式,当数据是流式数据时,将采用Kafka、storm等框架;而当数据是批式数据时,将采用MapReduce批处理模型;
S3:根据S2中预处理模块在收到元数据后,将数据进行解析、解码、填充和纠错等一系列程序,将数据预处理;
解析:接收到来自输入模块的数据时,先运行解析脚本,将传过来的数据转换成XML或者JSON格式数据,再进行业务处理;平台下发数据时,也会先通过脚本将数据转换为模块可以接收的数据格式,再下发给下层模块;
解码:在计算机网络中,需要通过网络实现资源共享和数据传输,因此当链接的双方信号形式不一样,...

【专利技术属性】
技术研发人员:黄玉划郭柯卿蓝天王娜
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1