一种基于分布式网络爬虫的内容聚合方法技术

技术编号:12784695 阅读:169 留言:0更新日期:2016-01-28 09:37
本发明专利技术提供一种基于分布式网络爬虫的内容聚合方法,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息;将所述爬取得到的网络信息进行处理,基于实时数据库中的数据传递及转换方法结合局部敏感哈希(LSH)方法,结合局部敏感哈希(LSH)方法,进行相似度检测从而降低信息的冗余度;系统对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。该方法根据实际网络中获取得到的数据信息进行LSH进行相似度对比得到对比结果,与现有技术中采用传统的整条数据查重方式得到的对比结果,其计算速度更快、相似度对比更精确。

【技术实现步骤摘要】

本专利技术涉及网页爬虫相关
,特别涉及。
技术介绍
随着互联网的不断发展,大数据时代迎面而来,海量数据的价值也将得到更多体现。由于海量流媒体视频资源及丰富的网页内容等互联网信息的日益递增,让特定用户在有限的碎片时间段通过手持设备很难准确有效获取自身所需的网络数据。而现有的内容聚合技术大多以基于上层架构的方式进行仿真模拟证明其内容聚合系统的优越性,缺少对真实网络环境及目标用户群对应的特定信息进行实现应用。传统的内容聚合方法所选择的过滤条件过于广泛,并且无法进行大批量定制化获取信息,难以保证信息的及时性与主题的相关性。对获取信息端规则的快速无规律变化无法适应,造成信息来源渠道的短暂性,无法长时间进行信息获取。对互联网上多个来源不同的相同信息无法区分,造成信息的重复性及冗余性,降低了目标用户获取信息的高效性。因此对于如何提高内容聚合平台的信息获取持久化、信息的去冗余度、信息的聚合分类等值得研究。
技术实现思路
本专利技术实现了,目的在于解决现有技术中网络爬虫技术不能有效对定制化大批量的网络信息进行聚合分类的问题。本专利技术提供的,该方法包括以下过程: 步骤一,抓取目标信息,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息; 步骤二,爬取内容信息相似度检测,将所述爬取得到的网络信息进行处理,基于实时数据库中的数据传递及其转换方法结合局部敏感哈希(LSH)方法,进行相似度检测从而降低信息的冗余度; 步骤三,爬取信息聚合分类,在步骤二的基础上,系统对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。在所述步骤一中,对于爬取平台的设置还包括以下步骤: 在任务开始前对爬虫平台进行部署,并配置爬虫属性,通过网页分析算法过滤与用户检索无关的链接,保留有用的链接放到待抓取的队列中,在过滤过程中,后台服务器首先将网页内容转化成文本形式并通过基于文本的网页分析算法从队列中选择下一步要抓取的url,,重复以上步骤,遍历整个页面,直到满足程序的停止条件。所述对爬虫进行部署包括对爬虫的服务配置和任务配置。所述步骤一具体包括: 步骤1.1,将根地址url按照其业务类别分为若干大类,选择与目标信息所对应的某一大类进行信息爬取; 步骤1.2,根据所述目标信息对应的大类url配置爬取目标地址,进入各个页面获取详细标签,爬取具体内容。所述步骤一还包括步骤1.3,进行到所述步骤1.2时,如果所述目标地址页面内对信息设置有更详细的分类,进入各小类页面获取详细标签,爬取具体内容,且重复步骤1.3,直到爬取到携带具体内容为止。所述步骤二具体包括: 步骤2.1,将所述爬取得到的网络信息进行处理,替换信息中的空白串及多媒体元素,将信息中所含的图片及视频资源提取出来并替换成对应的文本语言; 步骤2.2,将文本中的任意长度为k的子串定义为k-shingle,则每条信息可以表示成在文本中出现一次或者多次的k-shingle集合;需要将所述集合替换成以较小规模的签名表示的小集合,通过比较信息的签名集合估计实际集合的相似度; 步骤2.3,对信息进行多次局部敏感哈希处理,使得相似项会比不相似项更可能哈希到同一桶中,将至少有一次哈希到同一桶的信息对作为是候选对,仅对这些候选对进行相似度检测,将相似度达到设定阈值的信息进行筛选删除,降低信息的冗余度。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果: 本专利技术实施例所提供的方法,在获取到所用信息后进行相似度对比,提出冗余信息,获得所述冗余度较低的信息数据。该方法根据实际网络中获取得到的数据信息进行LSH进行相似度对比得到对比结果,与现有技术中采用传统的整条数据查重方式得到的对比结果,其计算速度更快、相似度对比更精确。【附图说明】以下将结合附图对本专利技术作进一步说明: 图1为本专利技术所提供的网页爬虫爬取规则的流程图; 图2为本专利技术所提供的爬取内容信息相似度检测过程的流程图; 图3为本专利技术所提供的爬取信息聚合分类过程的流程图; 图4为本专利技术所提供的爬虫分布式部署方法的流程图; 图5为本专利技术所提供的爬虫分布式部署系统结构示意图; 图6为本专利技术所提供的基于分布式网络爬虫的内容聚合系统的结构示意图。【具体实施方式】本专利技术提供,为使本专利技术的目的,技术方案及效果更加清楚,明确,以及参照附图并举实例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供的内容聚合系统结构示意图如图6所示,该系统包括: 用户界面:用户通过图形用户界面对系统进行管理和任务调度,调度服务由各个节点爬虫负责,主要提供包括爬虫任务启动、任务停止及任务状态服务;图形用户界面为内容聚合平台提供给用户的可视化操作界面,爬虫任务管理平台; 该界面通过调用底层的服务接口,作为管理爬虫节点任务的属性状态及日志的一个中心平台,使得系统管理人员提供易用、直观的控制平台。内容聚合分类模块:通过内容聚合分类模块提供爬虫任务相关命令,控制爬虫任务具体状态。根据定制化具体要求,详细设定爬取范围,动态跟踪爬取状态,提供爬虫任务相关的数据的写入、更新服务获取爬取具体内容。用于在所述信息获取指令模块获取到所需的数据后,从数据库抓取获得的数据信息,成为待处理数据。信息相似度检测模块:在获取到所用信息后进行相似度对比,剔除冗余信息,获得所述冗余度较低的信息数据。该模块将底层节点爬虫的信息进行查重处理,使得内容聚合系统中的信息冗余度降低。信息预处理模块:在上述所述信息相似度检测之后,深入研究网页内容,通过基于文本的网页分析算法,截取网页文本信息,聚合平台会根据文本内容自动获取对应信息,诸如标题,正文部分等,从而填充对应空白框架,由后台传输实现手持端对应展示。基于上述系统,本专利技术所提供的包括以下过程: 步骤一,抓取目标信息,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息; 步骤二,爬取内容信息相似度检测,将所述爬取得到的网络信息进行处理,基于数据库数据传递进行改进,结合局部敏感哈希(LSH)方法,进行相似度检测从而降低信息的冗余度; 步骤三,爬取信息聚合分类,在步骤二的基础上,系统对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。在开始任务前,首先对爬虫的部署与配置进行介绍,本专利技术指出的爬虫分布式部署如图4所示,该过程具体包括: 分布式爬虫配置包括爬虫服务配置和爬虫任务配置;爬虫服务配置,保障服务依赖的资源能够正确获取,保障任务的正常运行;爬虫服务配置对任务属性进行配置,如页面下载间隔时间、任务线程数,任务执行频次等。分布式爬虫部署,具体的,以web服务为主进行部署,需安装Tomcat容器,最终发布为war包,每个war部署后地理提供服务。在实际部署中,一台物理设备部署一个爬虫节点,为测试方便以及资源充分利用,可在一个物理服务器上部署多个容器,分配不同端口提供服务。IP地址和端口唯一确定一个爬虫节点。任务集中管理平台,其主要包含任务调度方式,及上述爬虫聚合管理系统,其连本文档来自技高网...

【技术保护点】
一种基于分布式网络爬虫的内容聚合方法,其特征在于,该方法包括以下过程:步骤一,抓取目标信息,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息;步骤二,爬取内容信息相似度检测,将所述爬取得到的网络信息进行处理,基于实时数据库中的数据传递及其转换方法结合局部敏感哈希(LSH)方法,进行相似度检测从而降低信息的冗余度;步骤三,爬取信息聚合分类,在步骤二的基础上,系统对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄韬魏亮魏静波邓晓涛周洪利
申请(专利权)人:南京未来网络产业创新有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1