一种分布式数据处理方法、系统和存储介质技术方案

技术编号:17248527 阅读:68 留言:0更新日期:2018-02-11 06:42
本发明专利技术公开了一种分布式数据处理方法、系统和存储介质,该方法包括有以下步骤:获取数据、预处理数据以及存储数据;对存储的数据进行个体、群体、事件以及整体分析;采用flume采集数据并通过sqoop将数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;展示数据分析结果。本发明专利技术通过相应的数据处理、数据存储以及采集数据、数据导入、并行化处理的过程,克服了关系型数据库不适合解决大规模数据的分布式计算的缺点,并且利用了MapReduce最适合于批处理任务的优势,从而实现高效地完成关系型数据库的分布式数据处理。本发明专利技术作为一种分布式数据处理方法、系统和存储介质可广泛应用于大数据处理领域。

【技术实现步骤摘要】
一种分布式数据处理方法、系统和存储介质
本专利技术涉及大数据处理领域,尤其是一种分布式数据处理方法、系统和存储介质。
技术介绍
随着现代社会的发展,人才流动,特别是优秀人才的快速流动成为一个普遍现象。如何在这样一个人才快速流动的环境中发现人才,并积极主动迎合人才的需求,保持自己的人才竞争优势已经成为各大公司人力资源管理所面临的一个非常重要的问题。目前市场上常用的人才信息分析管理系统包括Beishen(北森)、MordernHRinCloud等系统。上述所述信息分析系统大多数采用数据表格的结果化数据处理方式,在数据处理过程中面临复杂的ETL(extract、transform、load,萃取、转置、加载)的处理过程。一方面,所述系统进行数据信息分析的处理过程过于复杂,执行效率低,另一方面所述系统获取的信息数据通常仅包括例如学历、年龄、职业、工作年限、期望薪资等基于属性信息,对人才的分析受到获取的有限数据和固定分析方法的限制,没有涉及到其他影响人才流向的数据的分析,系统数据分析的灵活性较差、输出结果准确性较低。现有技术中提供了多种大数据处理框架,例如一种基于网络流量元数据的安全分析框架(本文档来自技高网...
一种分布式数据处理方法、系统和存储介质

【技术保护点】
一种分布式数据处理方法,其特征在于,包括有以下步骤:获取数据、预处理数据以及存储数据至数据库;对存储的数据进行个体分析、群体分析、事件分析以及整体分析;采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;展示数据分析结果。

【技术特征摘要】
1.一种分布式数据处理方法,其特征在于,包括有以下步骤:获取数据、预处理数据以及存储数据至数据库;对存储的数据进行个体分析、群体分析、事件分析以及整体分析;采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;展示数据分析结果。2.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述获取数据的具体过程为:对目标社会网络流量数据进行读取,提取目标社会网络流量数据的强特征,再从目标社会网络流量数据中识别出目标流量数据;然后对目标社会网络流量数据进行解析,提取用户关系数据、团体数据、非结构化的信息数据及多类别的非结构化数据。3.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述预处理数据的具体过程为:对获取的数据进行清洗、打标和关联。4.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述存储数据的具体过程为:将获取的数据以及预处理之后的数据分为目标社会网络流量数据存储、特征数据存储、日志数据存储和历史数据存储。5.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述个体分析的具体过程为:通...

【专利技术属性】
技术研发人员:李雪青
申请(专利权)人:广州汉邮通信有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1