【技术实现步骤摘要】
一种分布式垂直爬虫方法及终端设备
本专利技术涉及信息检索
,具体为一种分布式垂直爬虫方法及终端设备。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,现有的通用性搜索引擎也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取;通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询等。目前网络爬虫需要爬取的数据量巨大时,现有的分布式爬虫架构的爬取效率较低,因此,有必要进行改进。
技术实现思路
本专利技术 ...
【技术保护点】
1.一种分布式垂直爬虫方法,其特征在于:包括以下步骤:/nA、首先数据抓取单元中网络爬虫爬取网页资源数据;/nB、之后对抓取的网页资源数据进行预处理;/nC、将预处理后的网页资源数据进行分类,得到分类后的数据;/nD、将分类后的数据传输至数据分析单元进行数据分析;/nE、分析后的数据传输至存储单元中进行加密存储;/nF、最后将加密存储后的数据传输至后台监控终端。/n
【技术特征摘要】
1.一种分布式垂直爬虫方法,其特征在于:包括以下步骤:
A、首先数据抓取单元中网络爬虫爬取网页资源数据;
B、之后对抓取的网页资源数据进行预处理;
C、将预处理后的网页资源数据进行分类,得到分类后的数据;
D、将分类后的数据传输至数据分析单元进行数据分析;
E、分析后的数据传输至存储单元中进行加密存储;
F、最后将加密存储后的数据传输至后台监控终端。
2.根据权利要求1所述的一种分布式垂直爬虫方法,其特征在于:所述步骤A中网络爬虫爬取方法如下:
a、首先调度中心下发任务,一个任务中包括一个URL;根据任务在云端创建多个爬虫节点;
b、下发的任务分配至多个爬虫节点,每个爬虫节点的爬虫按URL抓取网页内容;
c、同时检测多个爬虫节点的运行状态,若检测到当前爬虫节点出现错误,则自动将任务下发至下一爬虫节点;
d、之后解析器解析抓取的网页内容,同时解析网页中的链接,在本地先用布隆过滤器进行去重;
e、最后收集多个爬虫节点发出的信息,该信息即为爬取的网页信息。
3.根据权利要求1所述的一种分布式垂直爬虫方法,其特征在于:所述步骤B中数据预处理方法如下:
a、对抓取的数据进行识别,得到噪声数据;
b、计算当前噪声数据的预设时间段前的平均值;
c、使用平均值取代噪声数据中的当前噪声值...
【专利技术属性】
技术研发人员:侯林勇,方程,张亮,杨坤,袁率,王俊,李亚萍,刘婉莹,
申请(专利权)人:贵州小叮当信息技术有限公司,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。