一种信息采集方法及装置制造方法及图纸

技术编号：4382589 阅读：182 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种信息采集方法及装置。本发明专利技术的技术方案通过将用户浏览Ｗｅｂ网页的访问信息发送给搜索引擎数据库，实现了搜索引擎数据库采集动态网页的发明专利技术目的。另外，在本发明专利技术的技术方案中，由于获取的是用户浏览Ｗｅｂ网页的信息，因此能够真实掌握Ｗｅｂ网页的用户使用情况，这样也为搜索引擎对网页的排序起到了重要的参考作用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网技术，尤指一种信息采集方法及装置。
技术介绍
互联网信息在急剧地膨胀，搜索引擎为人们在互联网上检索需要的信息提供了方便。现有的搜索引擎，比如google、百度等，使用一种称为网络爬虫如 Crawler、 Spider等应用程序从互联网上获得原始信息。实现方式是通过网络爬虫程序从一份特定的资源定位符(URL, Uniform Resource Locator)列表，一般情况下是一些门户网站的列表，开始获取网页的内容，并从这些信息中提取关键词等信息组成搜索引擎所需要使用的数据库，同时从这些网页信息中提取指向其它资源的URL,并将这些新的URL作为新的起点开始新一轮的信息采集。由于互联网的高度连通，这个循环一般会无休止地进行下去，搜索引擎通过一定的算法，比如搜索的深度限制等，来结束这个循环，这样搜索引擎将会得到一个综合的信息数据库。当用户在搜索引擎中输入要搜索的关键词后，搜索引擎就会检索自己的数据库，将搜索结果返回给用户完成一次搜索过程。目前多数大型网站采用了动态网页和静态网页相结合的方法。其中，动态网页和静态网页的区别在于动态网页是指Web服务器根据用户的访问情况临时生成的网页，需要根据用户"输入内容"或者进行"选择"、以及一些用户相关信息作为参数来动态生成；而静态网页是预先已经存在的网页无需动态生成。动态网页的数量要远远大于静态网页。从用户的角度看，动态网站非常不错，丰富了站点的功能，但是对于搜索引擎来说情况就不同了。态网页时，根本的问题在于"输入，，和"选择"，网络爬虫程序无法进行"输入"和"选择...

【技术保护点】
一种信息采集方法，其特征在于，该方法包括：　获取用户浏览Ｗｅｂ网页的访问信息；其中，访问信息包括所述Ｗｅｂ网页对应的超文本标记语言ＨＴＭＬ文件；　将获取的访问信息发送至搜索引擎数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员：葛长忠，
申请(专利权)人：杭州华三通信技术有限公司，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人