一种基于分布式网络爬虫的内容聚合方法技术

技术编号：12784695 阅读：169 留言：0更新日期：2016-01-28 09:37

本发明专利技术提供一种基于分布式网络爬虫的内容聚合方法，首先将不同的爬虫平台设置在不同的设备上，向爬取的网络信息来源端发送请求，爬虫平台根据用户所需求的目标信息制定爬取规则，抓取目标用户所感兴趣的信息；将所述爬取得到的网络信息进行处理，基于实时数据库中的数据传递及转换方法结合局部敏感哈希（LSH）方法，结合局部敏感哈希（LSH）方法，进行相似度检测从而降低信息的冗余度；系统对筛选过的信息按类别、热度、关键字进行分类排序，并展示在用户设备上。该方法根据实际网络中获取得到的数据信息进行LSH进行相似度对比得到对比结果，与现有技术中采用传统的整条数据查重方式得到的对比结果，其计算速度更快、相似度对比更精确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网页爬虫相关
，特别涉及。
技术介绍
随着互联网的不断发展，大数据时代迎面而来，海量数据的价值也将得到更多体现。由于海量流媒体视频资源及丰富的网页内容等互联网信息的日益递增，让特定用户在有限的碎片时间段通过手持设备很难准确有效获取自身所需的网络数据。而现有的内容聚合技术大多以基于上层架构的方式进行仿真模拟证明其内容聚合系统的优越性，缺少对真实网络环境及目标用户群对应的特定信息进行实现应用。传统的内容聚合方法所选择的过滤条件过于广泛，并且无法进行大批量定制化获取信息，难以保证信息的及时性与主题的相关性。对获取信息端规则的快速无规律变化无法适应，造成信息来源渠道的短暂性，无法长时间进行信息获取。对互联网上多个来源不同的相同信息无法区分，造成信息的重复性及冗余性，降低了目标用户获取信息的高效性。因此对于如何提高内容聚合平台的信息获取持久化、信息的去冗余度、信息的聚合分类等值得研究。
技术实现思路
本专利技术实现了，目的在于解决现有技术中网络爬虫技术不能有效对定制化大批量的网络信息进行聚合分类的问题。本专利技术提供的，该方法包括以下过程: 步骤一，抓取目标信息，首先将不同的爬虫平台设置在不同的设备上，向爬取的网络信息来源端发送请求，爬虫平台根据用户所需求的目标信息制定爬取规则，抓取目标用户所感兴趣的信息；步骤二，爬取内容信息相似度检测，将所述爬取得到的网络信息进行处理，基于实时数据库中的数据传递及其转换方法结合局部敏感哈希(LSH)方法，进行相似度检测从而降低信息的冗余度；步骤三，爬取信息聚合分类，在步骤二的基础上，系统对筛...

【技术保护点】
一种基于分布式网络爬虫的内容聚合方法，其特征在于，该方法包括以下过程：步骤一，抓取目标信息，首先将不同的爬虫平台设置在不同的设备上，向爬取的网络信息来源端发送请求，爬虫平台根据用户所需求的目标信息制定爬取规则，抓取目标用户所感兴趣的信息；步骤二，爬取内容信息相似度检测，将所述爬取得到的网络信息进行处理，基于实时数据库中的数据传递及其转换方法结合局部敏感哈希（LSH）方法，进行相似度检测从而降低信息的冗余度；步骤三，爬取信息聚合分类，在步骤二的基础上，系统对筛选过的信息按类别、热度、关键字进行分类排序，并展示在用户设备上。

【技术特征摘要】

【专利技术属性】
技术研发人员：黄韬，魏亮，魏静波，邓晓涛，周洪利，
申请(专利权)人：南京未来网络产业创新有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人