【技术实现步骤摘要】
基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法
本专利技术属于数据挖掘领域,具体涉及的是基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法。
技术介绍
迄今为止,Internet上可公开访问的网页进过统计已经超过了二十亿个,这种增长似乎并未平息。网络上的动态内容数量呈指数级增长,如新闻,社交网络和个人数据。人们希望快速获取他们想要的信息,不依靠搜索引擎是不可能的。这使网页搜索成为一项非常重要的任务。各式各样的网络爬虫系统地从Internet上收集有关文档的信息,以创建其正在搜索的数据的索引,并通过后续的爬取来更新索引。爬虫的工作即列出包含与典型用户搜索请求主题相关的文档以及访问方式。传统的通用网络爬虫不易于扩展,它们不可被设置为针对特定主题建立准确的索引,并且在时间上落后于整个网络的更新。为了克服这些缺点,聚焦爬虫旨在依靠网络的链接结构,识别和收获与目标主题相关的页面,以提高爬虫在准确性,通用性和速度方面的性能。使用聚焦爬虫的重大益处在于使分散资源和存储索引成为可能性。通常,目标主题由关键字、分类的标准词典或一组示例文档定义。聚焦网络爬虫的主要挑战是在实际抓取之前 ...
【技术保护点】
基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法,其特征在于,包括以下步骤:步骤1)抓取器组件从抓取队列中取出一个元素,最初,种子URL被放置在具有最高优先级的队列中;步骤2)爬虫程序组件定位从步骤1)获取的Web文档,尝试下载页面的实际HTML数据,或以其他方式下载服务器的HTTP响应;步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中,响应队列中的响应即实际可获取的页面内容;步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题;步骤5)如果被步骤4)视为主题,则页面的特定元素然后被发送到宝藏图进行特定的比较和计算;宝藏图数据用 ...
【技术特征摘要】
1.基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法,其特征在于,包括以下步骤:步骤1)抓取器组件从抓取队列中取出一个元素,最初,种子URL被放置在具有最高优先级的队列中;步骤2)爬虫程序组件定位从步骤1)获取的Web文档,尝试下载页面的实际HTML数据,或以其他方式下载服务器的HTTP响应;步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中,响应队列中的响应即实际可获取的页面内容;步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题;步骤5)如果被步骤4)视为主题,则页面的特定元素然后被发送到宝藏图进行特定的比较和计算;宝藏图数据用于确定页面中未访问链接的重要性;宝藏图将优先级分数与每个未访问链接相关联;即使脱离主题的URL也会被分配一个设定的最低值作为优先级;步骤6)在步骤5)生成的宝藏图上有一个称为鹦鹉的观察更新组件,它定期更新宝藏图以便适应当前网络的实际结构,它通常也被称为“看门狗”;步骤7)完成步骤5)所有分析后,相关性计算器将URL及其优先级分数插入到抓取队列中;抓取队列项的优先级得分循环递增,以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作,这种情况称为饥饿;步骤8)完成步骤7)后,所分析网页的HTML数据与所有测量结果一起完全存储在存储库中;步骤9)数据库检查器组件不断地在存储库上运行特定的检查,并更新步骤8)所得存储库的索引,其最终目标是使存储库保持最新。2.根据权利要求1所述的方法,其特征在于,步骤1)抓取器组件从抓取队列中取出一个元素。最初,种子URL被放置在具有最高优先级的队列中;优先级的高低决定了抓取的先后顺序;优先级用一个[0.01,1]的数字表示,数值越大则优先级越高。3.根据权利要求1所述的方法,其特征在于,步骤2)爬虫程序组件定位从步骤1)获取的Web文档,下载页面的实际HTML数据;在下载页面文档数据时,不考虑图片、视频元素,仅针对文本内容进行下载,并将文本内容分为两类:链接和内容。4.根据权利要求1所述的方法,其特征在于,步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中;响应队列包含文档或HTTP响应,以防由于链接暂时不可用或不新鲜而无法下载页面。5.根据权利要求1所述的方法,其特征在于,步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题;首先利用词干分析算法对文档进行规范化处理,接着使用杜威十进制分类系统对规范后的文档内容进行分析,预测出本页面的主题,并判断页面是否属于给定的目标主题;这一过程的核心公式为:其中W反映主题集中程度的,在迭代过程中W取最大值的位置即被认为是本页面的核心主题;n表示符合杜威分类器选择框的页面文本元素的个数;di表示页面元素i对应的杜威十进制...
【专利技术属性】
技术研发人员:马廷淮,周宏豪,赵雨薇,荣欢,曹杰,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。