【技术实现步骤摘要】
一种基于大数据的数据处理系统
本专利技术涉及大数据
,具体涉及一种基于大数据的数据处理系统。
技术介绍
随着信息时代的高速发展,数据之间的传输速度大大提升,因此目前整个社会进入了大数据时代,大数据平台已建立面向整个大数据业务的数据仓科,整合了前台业务运营数据和后台管理数据,建立了面向大数据的管理分析应用,但是现有的大数据平台缺乏面向整个大数据统一、完整的数据前期处理系统。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提供了一种基于大数据的数据处理系统。本专利技术解决上述问题的技术方案为:一种基于大数据的数据处理系统,包括数据采集模块和数据分类存储模块两大模块;所述数据采集模块采集三类数据,这三类数据为内部业务系统产生的结构化数据、企业内部非结构化数据和企业外部数据,所述内部业务系统产生的结构化数据包括大数据平台提倡大数据业务处理过程中产生的结构化数据和大数据日常业务处理过程中产生的机构化数据,内部业务系统产生的机构化数据采集时,调用Perl文件模块相关函数、轮询制定目录,获取数据文件,Prel锥形文件级数据质量检查,调用HiveLoad数据命令,加载到 ...
【技术保护点】
1.一种基于大数据的数据处理系统,其特征在于,包括数据采集模块和数据分类存储模块两大模块;所述数据采集模块采集三类数据,这三类数据为内部业务系统产生的结构化数据、企业内部非结构化数据和企业外部数据,所述内部业务系统产生的结构化数据包括大数据平台提倡大数据业务处理过程中产生的结构化数据和大数据日常业务处理过程中产生的机构化数据,内部业务系统产生的机构化数据采集时,调用Perl文件模块相关函数、轮询制定目录,获取数据文件,Prel锥形文件级数据质量检查,调用HiveLoad数据命令,加载到数据平台临时数据器的Hive able数据命令,加载到数据平台临时数据区的HiveTabl ...
【技术特征摘要】
1.一种基于大数据的数据处理系统,其特征在于,包括数据采集模块和数据分类存储模块两大模块;所述数据采集模块采集三类数据,这三类数据为内部业务系统产生的结构化数据、企业内部非结构化数据和企业外部数据,所述内部业务系统产生的结构化数据包括大数据平台提倡大数据业务处理过程中产生的结构化数据和大数据日常业务处理过程中产生的机构化数据,内部业务系统产生的机构化数据采集时,调用Perl文件模块相关函数、轮询制定目录,获取数据文件,Prel锥形文件级数据质量检查,调用HiveLoad数据命令,加载到数据平台临时数据器的Hiveable数据命令,加载到数据平台临时数据区的HiveTable;所述企业内部非结构化数据包括日常业务处理过程中产生的非结构化数据,其存储形式多样,所述企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息和社交媒体信息,企业内部非结构化数据和企业外部数据采集时,大数据源以SFTP协议批量传输数据文件,开发Java或C应用,调用数据源API,或以网络平台爬虫方式赚取源系统非结构化、半结构化数据;所述数据分类存储模块整个流程包括三个步骤,具体为:步骤一流程调度层批量处理流程:批量数据处理有流程调度层部署的自定义开大WorkFlow组件调度运行;步骤二流程调度层实时数据处理流程:实时数据处理强调的事实时会准实时获取并处理数据,通常采取消息列队等技术构建数据流,整个处理流程由流程调度层部署的自定义开发Work...
【专利技术属性】
技术研发人员:曹宏,
申请(专利权)人:江苏网域科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。