一种信息采集方法及装置制造方法及图纸

技术编号:4382589 阅读:182 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种信息采集方法及装置。本发明专利技术的技术方案通过将用户浏览Web网页的访问信息发送给搜索引擎数据库,实现了搜索引擎数据库采集动态网页的发明专利技术目的。另外,在本发明专利技术的技术方案中,由于获取的是用户浏览Web网页的信息,因此能够真实掌握Web网页的用户使用情况,这样也为搜索引擎对网页的排序起到了重要的参考作用。

【技术实现步骤摘要】

本专利技术涉及互联网技术,尤指一种信息采集方法及装置
技术介绍
互联网信息在急剧地膨胀,搜索引擎为人们在互联网上检索需要的信息 提供了方便。现有的搜索引擎,比如google、百度等,使用一种称为网络爬虫如 Crawler、 Spider等应用程序从互联网上获得原始信息。实现方式是通过网络 爬虫程序从一份特定的资源定位符(URL, Uniform Resource Locator)列 表, 一般情况下是一些门户网站的列表,开始获取网页的内容,并从这些信 息中提取关键词等信息组成搜索引擎所需要使用的数据库,同时从这些网页 信息中提取指向其它资源的URL,并将这些新的URL作为新的起点开始新 一轮的信息采集。由于互联网的高度连通,这个循环一般会无休止地进行下 去,搜索引擎通过一定的算法,比如搜索的深度限制等,来结束这个循环, 这样搜索引擎将会得到一个综合的信息数据库。当用户在搜索引擎中输入要 搜索的关键词后,搜索引擎就会检索自己的数据库,将搜索结果返回给用户 完成一次搜索过程。目前多数大型网站采用了动态网页和静态网页相结合的方法。其中,动 态网页和静态网页的区别在于动态网页是指Web服务器根据用户的访问 情况临时生成的网页,需要根据用户"输入内容"或者进行"选择"、以及 一些用户相关信息作为参数来动态生成;而静态网页是预先已经存在的网页 无需动态生成。动态网页的数量要远远大于静态网页。从用户的角度看,动 态网站非常不错,丰富了站点的功能,但是对于搜索引擎来说情况就不同了 。态网页时,根本的问题在于"输入,,和"选择",网络爬虫程 序无法进行"输入"和"选择"的操作,也就无法进行信息采集的操作。因 此,如何进行动态网页的信息采集,是建立搜索引擎数据库一个亟待解决的 技术问题。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种信息采集方法及装置,应用 本专利技术所述提供的技术方案能够实现动态网页的搜索。为达到上述目的,本专利技术的技术方案是这样实现的 本专利技术提供了一种信息采集方法,该方法包括获取用户浏览Web网页的访问信息;其中,访问信息包括所述Web网 页对应的超文本标记语言HTML文件;将获取的访问信息发送至搜索引擎数据库。本专利技术还提供了一种信息采集装置,该装置包括荻取单元和发送单元; 所述获取单元,用于获取用户浏览Web网页的访问信息,并发送至所述发送单元;其中,访问信息包括所述Web网页对应的超文本标记语言HTML文件;所述发送单元,用于将获取的访问信息发送至搜索引擎数据库。 本专利技术所提供的一种信息采集方法及装置,通过将用户浏览Web网页 的访问信息发送给搜索引擎数据库,实现了搜索引擎数据库采集动态网页的 专利技术目的。通过WEB服务器与搜索引擎互相合作,可以为网络用户提供更 准确、及时的搜索内容。不仅如此,供搜索引擎数据库使用的信息是位于 Web服务器侧的发送侧发起的,可以很好地解决版权及隐私问题。另外,由于本专利技术的技术方案获取的是用户浏览Web网页的信息,因 此能够真实掌握Web网页的用户使用情况,并有理由认为用户访问量大的 信息就是重要的信息,所以这些采集到的信息中已经融合了用户对网页知识 的判断智慧,为搜索引擎对网页的排序可以起到重要的参考作用,具有任何一种数学方法或人工调节方法所无法比拟的准确程度。附图说明图1为本专利技术提供的信息采集装置的结构图;图2为本专利技术较佳实施例提供的方法流程图。具体实施例方式本专利技术提供了一种信息采集方法,具体为获取用户浏览Web网页的访问信息;其中,访问信息包括所述Web网页对应的超文本标记语言(HTML, HyperText Mark-up Language )文件;然后,将获取的访问信息发送至搜索引擎数据库。HTML文件反映了用户浏览的Web网页的情况,HTML文件既能反映静态网页,又能反映动态网页,因此通过截获Web服务器发送给客户端的HTML文件,就能够获得动态网页的有关信息,使搜索引擎数据库能够采集Web服务器中有关动态网页的信息。另外,为了使搜索引擎数据库能够更进一步掌握用户浏览Web网页的情况。访问信息中还可以进一步包括客户端IP地址、服务器IP地址、URL、访问时间。那么相应的,获取用户浏览Web网页的访问信息则包括获取所述用户所在客户端IP地址、提供所述Web网页的Web服务器IP地址、浏览Web网页的URL、所述用户浏览所述Web网页的访问时间,以及所述Web月良务器发送给用户客户端的所述Web网页对应的HTML文件。在访问信息中还可以进一步包括访问次数。相应的,所述获取用户浏览Web网页的访问信息中可以进一步包括在设定的时间内,统计所述用户浏览所述Web网页的次数。这样,访问信息中的访问时间可以是该用户最后一次浏览该Web网页的时间。用户对Web服务器访问量是巨大的,为了减少发送访问信息的数据量。在本专利技术的技术中,可以对Web服务器提供的HTML文件编码,设置编码字典,将HTML文件与对应的编码记录在编码字典中。这样,本专利技术的技术方案不仅可以直接将Web网页对应的HTML文件携带访问信息中发送,还可以利用编码字典的记录对访问信息中的HTML文件进行编码,通过发送编码,使搜索引擎数据库接收HTML文件,减少数据的传输量。即根据Web服务器发送给用户客户端访问信息中的HTML文件,利用编码字典获取与所述HTML文件对应的编码;用编码代替访问信息中的HTML文件;发送携带编码的访问信息。同时,在将获取的访问信息发送至所述搜索引擎数据库之前,根据所述编码字典获得与访问信息中编码对应的HTML文件,然后将获得的HTML文件发送至搜索引擎数据库。#>据前面的介绍,Web网页分为静态网页和动态网页。对于静态网页而言,网页形式固定,不会发生变化,对于每个静态网页都可以编码;而对于动态网页而言,动态网页是根据用户的不同选择生成的,如果针对每个动态网页均进行编码的话,势必使编码字典过于庞大。为了减少编码字典的条目数,可以采用以下方式对动态网页编码。分析动态网页的构成不难发现,动态网页通常是由网页模板和变量组成。这样,在对动态网页进行编码时,可以分别对网页模板、变量进行编码,将网页模板、变量与编码的对应关系记录至编码字典。例如,对于内容为"您浏览的A商品价格为60元"的动态网页,它其实是由网页模板"您浏览的X商品价格为Y元,,,以及X和Y两个变量组成。其中X表示商品名称、Y表示具体的价格。Web服务器根据不同用户的选择以及用户的优先级,确定X和Y值,向用户显示。因此,在对这个动态网页进4亍编码时,可以对组成该动态网页的三个量进行编码,即网页模板,变量X和Y。这样,获取动态网页对应编码的过程可以是根据Web服务器依据网页模板和变量生成动态网页的过程、以及编码字典中该网页模板和变量对应的编码,获取该动态网页对应的编码。其中,由于X和Y是变量,取值不固定。因此为了使搜索引擎数据库侧能够通过编码恢复动态网页,获取动态网页时,除了发送动态网页对应网页模板和变量对应的编码,还要根据当前动态网页的内容获得变量对应的值。这样,在发送动态网页对应HTML文件时,发送获得的编码以及变量对应的值。相应的,在发送至搜索搜索引起 数据库之前,需要根据所述编码字典获得与编码对应的网页模板本文档来自技高网
...

【技术保护点】
一种信息采集方法,其特征在于,该方法包括: 获取用户浏览Web网页的访问信息;其中,访问信息包括所述Web网页对应的超文本标记语言HTML文件; 将获取的访问信息发送至搜索引擎数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:葛长忠
申请(专利权)人:杭州华三通信技术有限公司
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1