【技术实现步骤摘要】
一种基于NiFi的大数据量非结构文件采集方法及系统
本专利技术涉及计算机
,具体提供一种基于NiFi的大数据量非结构文件采集方法及系统。
技术介绍
随着社会的不断进步,社会的各项技术也飞速发展。现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据是如此重要,以至于其数据采集、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题,而数据采集是一切大数据应用的开始和前提。在很多项目开发和实施过程中,客户与研发人员开始往往更关注数据的治理、挖掘与分析应用等,但后期才发现数据采集可能才是最大的难点和最耗时耗力的工作。能够及时、快速、准确、完整的将外部数据抽取到大数据平台是很多开发人员面临的难题。结构化、半结构化、非结构化数据的采集有很多技术实现方案或产品。但在生产环境中,数据采集面临着很多影响因素,网络就是其中最重要的因素之一。网络的带宽、稳定性,尤其是网络拓扑结构限制着数据采集方案。政府、公安、医院、银行等行业都是使用自 ...
【技术保护点】
1.一种基于NiFi的大数据量非结构文件采集方法,其特征在于:该方法在数据中心部署大数据平台和NiFi集群,在数据采集和数据传输节点部署NiFi单例或NiFi集群,由NiFi负责数据采集、数据传输及数据存储。/n
【技术特征摘要】
1.一种基于NiFi的大数据量非结构文件采集方法,其特征在于:该方法在数据中心部署大数据平台和NiFi集群,在数据采集和数据传输节点部署NiFi单例或NiFi集群,由NiFi负责数据采集、数据传输及数据存储。
2.根据权利要求1所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:该方法具体包括以下步骤:
S1、配置非结构化文件存储服务:在数据中心部署大数据平台和NiFi集群;
S2、数据采集:配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据;
S3、数据传输:在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心;
S4、数据存储:通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。
3.根据权利要求2所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:所述大数据平台包括多台服务器、单台服务器或单台PC机,配置的非结构化文件存储服务包括FTP、SFTP、HDFS服务。
4.根据权利要求3所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:所述数据采集线程需要配置主机服务、读取路径,数据采集服务需要配置主机名称、用户名和认证密码。
5.根据权利要求4所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:数据存储过程中,通过NiFi单例或NiFi集群将数据写入HDFS、HBase完成持久化存储,写入Hive用于统计分析,写入Kafka用...
【专利技术属性】
技术研发人员:翟建峰,胡清,王建华,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。