【技术实现步骤摘要】
一种基于行业数据采集的分布式云存储方法
本专利技术涉及信息
,具体地说是针对税务行业领域、基于行业数据采集的分布式云存储方法。
技术介绍
当今已经是数据大爆炸的时代,各个行业面临着大部分的问题:比如集中管理行业数据,需要解决从无规则、无行业分类的互联网爬取针对性的行业信息的问题;同时海量数据的存储也是一大难题;采集的数据如何与内部数据做共享与整合,迄今为止也未很好的解决;历史记录查询问题、实时并发入库问题、搜索效率低的问题、数据分布式存储及交互式查询问题都是当今数据存储的难题。有时工作人员采用集群来解决上述问题,但集群管理维护难,现有集群系统没有一个从硬件到软件到服务状态的整体监控和管理系统,基于此,现提供一种可解决上述问题、基于行业数据采集的分布式云存储方法。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、基于行业数据采集的分布式云存储方法。一种基于行业数据采集的分布式云存储方法,其具体实现过程为:一、搭建行业搜索采集云平台;二、客户上传需要的网站数据给上述云平台的采集系统;三、云平台的采集系统通过对网站规则分析,找出上次客户上传网站数据时采集系统配置的网站配置模板,并模拟出符合要求的采集模板;如果没有,通过人工配置出相应的采集模板;四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问; ...
【技术保护点】
一种基于行业数据采集的分布式云存储方法,其特征在于其具体实现过程为:一、搭建行业搜索采集云平台;二、客户上传需要的网站数据给上述云平台的采集系统;三、云平台的采集系统通过对网站规则分析,找出以前一样的或类似的网站配置模板,并模拟出符合要求的模板;如果没有,通过人工配置出相应的采集模板;四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上;两个区域内的数据互相备份共享,并通过Object Data File 归档,将数据整合;六、客户端给NameNode发送请求,得到系统内存储的相关数据。
【技术特征摘要】
1.一种基于行业数据采集的分布式云存储方法,其特征在于其具体实现过程为:一、搭建行业搜索采集云平台;二、客户上传需要的网站数据给上述云平台的采集系统;三、云平台的采集系统通过对网站规则分析,找出上次客户上传网站数据时采集系统配置的网站配置模板,并模拟出符合要求的采集模板;如果没有,通过人工配置出相应的采集模板;四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到...
【专利技术属性】
技术研发人员:徐宏伟,王传超,孙海峰,
申请(专利权)人:浪潮软件集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。