【技术实现步骤摘要】
本专利技术涉及一种具备页面渲染功能的网络爬虫系统,同时也涉及该网络爬虫系统 实现页面渲染功能的方法,属于网络资源搜索
技术介绍
据有关媒体报导,美国谷歌(google)公司在2010年10月6日推出了搜索结果 可视预览功能,允许用户在搜索结果列表中直接以缩略图的形式预览每个页面。据谷歌公 司有关人士介绍,“有时用户点击一个搜索结果,却发现出现的页面与其想要的页面相差甚 远。于是用户只能点击返回,再去点击另一个搜索结果。这种体验很差。我们试图以提供 预览的方式避免这种情况的发生。”为此,用户将在搜索结果右侧看到一个放大镜标志,点 击放大镜就可以看到这个页面的缩略图预览。用户还可以向下滑动,查看所有搜索结果的 预览图。为了满足搜索结果可视预览的要求,谷歌公司将存储几十亿个流行度较高的网页 的缩略图。对于流行度较低的页面,谷歌公司也通过技术手段在不到十分之一秒的时间内 生成缩略图。但是,满足上述要求所付出的硬件成本和软件成本都是巨大的。目前还有一些别的技术手段可以实现页面预览功能,例如使用CGI程序,抓取浏 览器的图像区,利用浏览器的绘图功能生成图片。另外, ...
【技术保护点】
一种具备页面渲染功能的网络爬虫系统,其特征在于:所述网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库;其中,所述信息采集器位于所述网络爬虫系统的底层,与互联网直接进行交互以获取Web页面,所述页面分析器与所述信息采集器进行连接,一方面从页面内容中解析出带有链接标记的URL,交给所述URL过滤器解析;另一方面将页面内容解析为文本格式,交给所述页面过滤器处理;所述URL过滤器对URL进行限定站点范围和主题的过滤之后,存入URL库中;所述页面过滤器进行页面内容的冗余检测后,将检测后的页面存入页面库中;所述图片生成器连 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。