一种基于行业数据采集的分布式云存储方法技术

技术编号:10600567 阅读:133 留言:0更新日期:2014-11-05 13:30
本发明专利技术公开了一种基于行业数据采集的分布式云存储方法,其具体实现过程为:搭建行业搜索采集云平台;客户上传需要的网站数据给上述云平台的采集系统;云平台的采集系统通过对网站规则分析,找出以前一样的或类似的网站配置模板,并模拟出符合要求的模板;如果没有,通过人工配置出相应的采集模板;采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;采用分布式系统基础架构Hadoop集群管理;客户端给Hadoop集群发送请求,得到系统内存储的相关数据。该一种基于行业数据采集的分布式云存储方法与现有技术相比,解决了现有技术中提高服务质量、提升问题达成率等问题,实用性强。

【技术实现步骤摘要】
一种基于行业数据采集的分布式云存储方法
本专利技术涉及信息
,具体地说是针对税务行业领域、基于行业数据采集的分布式云存储方法。
技术介绍
当今已经是数据大爆炸的时代,各个行业面临着大部分的问题:比如集中管理行业数据,需要解决从无规则、无行业分类的互联网爬取针对性的行业信息的问题;同时海量数据的存储也是一大难题;采集的数据如何与内部数据做共享与整合,迄今为止也未很好的解决;历史记录查询问题、实时并发入库问题、搜索效率低的问题、数据分布式存储及交互式查询问题都是当今数据存储的难题。有时工作人员采用集群来解决上述问题,但集群管理维护难,现有集群系统没有一个从硬件到软件到服务状态的整体监控和管理系统,基于此,现提供一种可解决上述问题、基于行业数据采集的分布式云存储方法。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、基于行业数据采集的分布式云存储方法。一种基于行业数据采集的分布式云存储方法,其具体实现过程为:一、搭建行业搜索采集云平台;二、客户上传需要的网站数据给上述云平台的采集系统;三、云平台的采集系统通过对网站规则分析,找出上次客户上传网站数据时采集系统配置的网站配置模板,并模拟出符合要求的采集模板;如果没有,通过人工配置出相应的采集模板;四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上;两个区域内的数据互相备份共享,并通过ObjectDataFile归档,将数据整合;六、客户端给NameNode发送请求,得到系统内存储的相关数据。所述步骤一的详细过程为:搭建行业搜索系统,给用户提供采集模板的接口,采集系统搭建在云服务器上,并做分布式采集的部署;搭建分布式存储系统、调节并接通采集系统与存储系统之间的接口,将采集后的数据直接存储到存储系统里;搭建提供用户的行业数据的接口,使采集后的数据与行业数据互相共享,这里的行业数据即为步骤五中DataNode第二个分区中存储的内部数据。所述步骤四中服务器端进行数据处理采用对象存储技术,该处理的数据包含文件数据以及该文件数据的属性信息。本专利技术的一种基于行业数据采集的分布式云存储方法,具有以下优点:该专利技术的一种基于行业数据采集的分布式云存储方法行业搜索采集系统比普通的网络爬虫更有针对性,采集周期变短、数据准确性大大提高。用户无需复杂的配置,可以通过行业配置模板进行修改或直接采集,采集内容通过规范的文件访问协议和远程过程调用,转发到服务器端进行处理,同时行业内部数据通过sqoop技术转化为文件存储形式,放入另一个存储区域。两个区域的数据达到共享,用户发送给namenode的请求后,从而进行“移动式计算”分析出用户所要的结果。解决了现在许多行业的企业无法及时了解市场的动态变化、提高服务质量、提升问题达成率等问题,而在互联网上采集自己行业的相关信息,并与自己行业内部组织数据相结合的大数据采集及存储的难题,实用性强,易于推广。附图说明附图1为本专利技术的实现流程图。附图2为本专利技术的采集数据与内部数据归档图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明。本专利技术的提供一种基于行业数据采集的分布式云存储方法通过“行业搜索采集系统”将互联网上的行业数据抓取下来,并能与行业内部组织数据进行整合分析的技术实现,如附图1、图2所示,该方法的具体实现过程为:一、搭建行业搜索采集云平台;二、客户上传需要的网站数据给上述云平台的采集系统;三、云平台的采集系统通过对网站规则分析,找出上次客户上传网站数据时采集系统配置的网站配置模板,并模拟出符合要求的采集模板;如果没有,通过人工配置出相应的采集模板;四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上;两个区域内的数据互相备份共享,并通过ObjectDataFile归档,将数据整合;六、客户端给NameNode发送请求,得到系统内存储的相关数据。由于各个行业的网站规则不一,用户采集的数据需求不统一等难点,对采集造成了一些困难。因此我们给客户端提供了各个行业的采集模板口径,采集端和存储是部署在云服务器上。基于该思路,上述步骤一的详细过程为:搭建行业搜索系统,给用户提供采集模板的接口,采集系统搭建在云服务器上,并做分布式采集的部署;搭建分布式存储系统、调节并接通采集系统与存储系统之间的接口,将采集后的数据直接存储到存储系统里;搭建提供用户的行业数据的接口,使采集后的数据与行业数据互相共享,这里的行业数据即为步骤五中DataNode第二个分区中存储的内部数据。所述步骤四中服务器端进行数据处理采用对象存储技术,该处理的数据包含文件数据以及该文件数据的属性信息。上述具体实施方式仅是本专利技术的具体个案,本专利技术的专利保护范围包括但不限于上述具体实施方式,任何符合本专利技术的一种基于行业数据采集的分布式云存储方法的权利要求书的且任何所属
的普通技术人员对其所做的适当变化或替换,皆应落入本专利技术的专利保护范围。本文档来自技高网
...
一种基于行业数据采集的分布式云存储方法

【技术保护点】
一种基于行业数据采集的分布式云存储方法,其特征在于其具体实现过程为:一、搭建行业搜索采集云平台;二、客户上传需要的网站数据给上述云平台的采集系统;三、云平台的采集系统通过对网站规则分析,找出以前一样的或类似的网站配置模板,并模拟出符合要求的模板;如果没有,通过人工配置出相应的采集模板;四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上;两个区域内的数据互相备份共享,并通过Object Data File 归档,将数据整合;六、客户端给NameNode发送请求,得到系统内存储的相关数据。

【技术特征摘要】
1.一种基于行业数据采集的分布式云存储方法,其特征在于其具体实现过程为:一、搭建行业搜索采集云平台;二、客户上传需要的网站数据给上述云平台的采集系统;三、云平台的采集系统通过对网站规则分析,找出上次客户上传网站数据时采集系统配置的网站配置模板,并模拟出符合要求的采集模板;如果没有,通过人工配置出相应的采集模板;四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到...

【专利技术属性】
技术研发人员:徐宏伟王传超孙海峰
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1