网络数据分布式采集系统及方法技术方案

技术编号:21089906 阅读:33 留言:0更新日期:2019-05-11 10:05
本公开提供了一种网络数据分布式采集系统及方法,利用分布式爬虫去重算法对各来源的网页数据进行爬取,对爬取的页面进行预处理,利用视觉的页面分割算法构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;利用Hadoop分布式文件系统对数据流进行选择存储的操作,进而分发。

Network Data Distributed Acquisition System and Method

【技术实现步骤摘要】
网络数据分布式采集系统及方法
本公开涉及一种网络数据分布式采集系统及方法。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。以国际互联网形成为标志的网络技术革命把人类社会推向信息网络化时代,形成全新的社会生活空间——网络环境,实时映射着社会生活的方方面面。在移动网和互联网飞速发展的时代,信息高度膨胀使得当前安全形势变得更加错综复杂,网络战争已经成为非传统社会安全领域的一个重要课题。由于论坛、微博、博客、私人空间、人人网等社交网站承载着大量的数据流动,在传统安全防范手段难以有效发挥作用的电子荒野上,亿万个网民的亿万种声音,利用互联网的隐蔽性、普及性、虚拟性以及时空超越性等特点隐身,给社会安全和国家稳定带来巨大挑战。因此,如何对社交大数据中的敏感信息进行实时、及时的采集,以为后期敏感词汇的抓取,敏感话题发现、犯罪组织关系挖掘以及杜绝谣言的传播等方面具有重大的影响。
技术实现思路
本公开为了解决上述问题,提出了一种网络数据分布式采集系统及方法。一种网络数据分布式采集方法,包括以下步骤:(1)对各来源的网页数据进行爬取,构建哈希表保存已经访问过的统一资源定位符,本文档来自技高网...

【技术保护点】
1.一种网络数据分布式采集方法,其特征是:包括以下步骤:(1)对各来源的网页数据进行爬取,构建哈希表保存已经访问过的统一资源定位符,并利用布隆过滤器进行地址判重;(2)对爬取的页面进行预处理,利用视觉的页面分割算法构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;(3)对数据流进行选择存储的操作,数据节点通过心跳协议定期向控制节点汇报其状态信息,控制节点根据状态信息作为存储策略来选择数据节点是否合适的依据,根据设定的阈值与数据节点的状态信息来确定是否选择这个数据节点;(4)设计弹性分布式数据集结...

【技术特征摘要】
1.一种网络数据分布式采集方法,其特征是:包括以下步骤:(1)对各来源的网页数据进行爬取,构建哈希表保存已经访问过的统一资源定位符,并利用布隆过滤器进行地址判重;(2)对爬取的页面进行预处理,利用视觉的页面分割算法构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;(3)对数据流进行选择存储的操作,数据节点通过心跳协议定期向控制节点汇报其状态信息,控制节点根据状态信息作为存储策略来选择数据节点是否合适的依据,根据设定的阈值与数据节点的状态信息来确定是否选择这个数据节点;(4)设计弹性分布式数据集结构,创建不同的分区,对数据进行内存的转存,对选择的数据进行优化存储,提取不同分区的存储数据,实现分布式采集。2.如权利要求1所述的一种网络数据分布式采集方法,其特征是:所述步骤(1)中,构建多个哈希表,每个哈希表通过一个哈希函数将一个网页映射成一个位阵列中的一个点,利用布隆过滤器查看每个哈希表,只要查看对应的点是不是1就能够确定对应的集合中是否包含该网页。3.如权利要求1所述的一种网络数据分布式采集方法,其特征是:所述步骤(2)中,对页面的实体属性抽取,利用视觉分割算法VISP将结果页面进行区域分割并构建对应的Vision树,将结果页面分为:(a)内部页面,包含同一页面内各元素及其关系;(b)详细页面,包含了具体实体的详细信息,通过内部页面的超链接访问;(c)同类页面,为同一站点下由相同模板生成,其包含实体具有一定的结构、位置和外观相似性;利用了Markov逻辑网对分类关系进行建模以实现特征的有效合并,通过对三类特征的集成,计算出所有最大谓词,完成对实体属性的推理抽取。4.如权利要求1所述的一种网络数据分布式采集方法,其特征是:所述步骤(3)中,Hadoop分布式文件系统中只有控制节点和数据节点,控制节点负责系统控制和策略实施,数据节点负责存储数据,当客户端向HDFS文件系统中存储数据时,首先客户端和控制节点通信,控制节点根据副本系数去选择数据节点,然后返回给客户端选择的数据节点,最后客户端和这些数据节点直接通信传输数据。5.如权利要求1所述的一种网络数据分布式采集方法,其特征是:所述步骤(3)中,状态信息包括成员变量、存储容量、剩余容量和最后更新时间信息,这些信息需要数据节点定期向控制节点汇报,控制节点利用这些信息作为数据存储策略的选择依据;数据节点通过定期的向控制节点发送心跳,汇报当前数据节点的状态信息,同时告诉控制节点自己还活着,控制节点通过对数据节点的心跳答复发送相应的命令信息。6.如权利要求1所述的一种网络数据分布式采集方法,其特征是:所述步骤(3)中,控制节点在接收到数据节点的心跳后的算法处理过程如下:对控制节点的身份进行检查包括版本信息和注册信息;控制节点更新该数据节点的状态信息;控制节点查询该数据节点的块状态,然后生成对数据节点的命令列表;控制节点检查当前的分布式系统更新状态;控制节点将生成的命令信息...

【专利技术属性】
技术研发人员:陆夏根朱世伟于俊凤魏墨济李晨徐蓓蓓张铭君李宪毅杨爱芹
申请(专利权)人:安徽芃睿科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1