当前位置: 首页 > 专利查询>黄斌专利>正文

具备页面渲染功能的网络爬虫系统及其实现方法技术方案

技术编号:5423007 阅读:319 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种具备页面渲染功能的网络爬虫系统,同时也涉及该网络爬虫系统实现页面渲染功能的方法。该网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库,不仅能完成一般网络爬虫的功能,还可以将网页直接进行页面渲染,并将渲染结果直接用图片格式加以保存,从而为低成本、高效率地实现页面预览功能奠定技术基础。利用本发明专利技术,当我们根据网页的地址进行检索后,不仅可以了解该页面的基本内容,能够看到其基本的显示效果,从而更多地了解整个页面的内容。

【技术实现步骤摘要】

本专利技术涉及一种具备页面渲染功能的网络爬虫系统,同时也涉及该网络爬虫系统 实现页面渲染功能的方法,属于网络资源搜索

技术介绍
据有关媒体报导,美国谷歌(google)公司在2010年10月6日推出了搜索结果 可视预览功能,允许用户在搜索结果列表中直接以缩略图的形式预览每个页面。据谷歌公 司有关人士介绍,“有时用户点击一个搜索结果,却发现出现的页面与其想要的页面相差甚 远。于是用户只能点击返回,再去点击另一个搜索结果。这种体验很差。我们试图以提供 预览的方式避免这种情况的发生。”为此,用户将在搜索结果右侧看到一个放大镜标志,点 击放大镜就可以看到这个页面的缩略图预览。用户还可以向下滑动,查看所有搜索结果的 预览图。为了满足搜索结果可视预览的要求,谷歌公司将存储几十亿个流行度较高的网页 的缩略图。对于流行度较低的页面,谷歌公司也通过技术手段在不到十分之一秒的时间内 生成缩略图。但是,满足上述要求所付出的硬件成本和软件成本都是巨大的。目前还有一些别的技术手段可以实现页面预览功能,例如使用CGI程序,抓取浏 览器的图像区,利用浏览器的绘图功能生成图片。另外,在专利申请号为200本文档来自技高网...

【技术保护点】
一种具备页面渲染功能的网络爬虫系统,其特征在于:所述网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库;其中,所述信息采集器位于所述网络爬虫系统的底层,与互联网直接进行交互以获取Web页面,所述页面分析器与所述信息采集器进行连接,一方面从页面内容中解析出带有链接标记的URL,交给所述URL过滤器解析;另一方面将页面内容解析为文本格式,交给所述页面过滤器处理;所述URL过滤器对URL进行限定站点范围和主题的过滤之后,存入URL库中;所述页面过滤器进行页面内容的冗余检测后,将检测后的页面存入页面库中;所述图片生成器连接所述URL库,针对...

【技术特征摘要】

【专利技术属性】
技术研发人员:黄斌
申请(专利权)人:黄斌
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1