借助于参考网络抓取建立网络语料库制造技术

技术编号:9295852 阅读:155 留言:0更新日期:2013-10-31 00:25
一种用于建立网络语料库(WCD)的计算机实现方法,包括以下步骤:由网络爬虫(WC)发送查询至参考网络抓取代理(RWCA),这个查询包含资源的至少一个标识符,由所述网络爬虫(WC)接收来自所述参考网络抓取代理(RWCA)的响应;如果这个响应不包含由所述标识符所识别的资源,则通过所述网络爬虫(WC)从与所述标识符相对应的网站(WS)下载所述资源,并且将所述资源添加到所述网络语料库(WCD);以及,如果这个资源包含由所述标识符所识别的资源,则将所述资源添加到网络语料库(WCD)。

【技术实现步骤摘要】
借助于参考网络抓取建立网络语料库
本专利技术涉及网络信息软件领域,并且特别地涉及从因特网中取回数据以建立语料库的方法和系统,例如那些已知的“网络爬虫”。
技术介绍
WWW(万维网)可被认为是一个巨大的数据储存库,其被极大地认为具有非常重要的商业价值。因此,需要向在互联网领域活跃的公司提供工具以创造网络上可用的资源之外的这种价值。这些公司可以提供专用于个体用户的服务(例如搜索引擎),或者以BtoB(企业对企业)模型提供给其他公司的服务,例如,对汇总特定商业领域的市场数据等等。为了能够分析信息并且规定其价格,首先和强制步骤是取回网络上可用的信息,并且根据它们建立“网络语料库”,即,可以运行专用计算机程序的一组资源。这些网络语料库在通用搜索引擎的情形下,或者在更小地局限于给定商业范围或者主题的情形下都是泛化的。从网络取回信息,例如资源(网页、多媒体文件等),是一项耗时的任务。取回单个资源的时延可能是数百毫秒到秒。这种时延也是不可预测的,由于其依赖于网站和基础通信网络的健康状况。并且,对网络上的可用资源没有全局查看。因此,为了建立这种查看,例如为了应答由搜索引擎的用户输入的查询,需要通过访问第一资源来执行迭代处理,并且接着访问在这些资源中所涉及的资源等,直到认为已经获得了对该网络的充分的查看。在进行这个处理中,累加时延并且能够回答用户请求的最终时延是不合理的。已经引入了网络爬虫来避免搜索引擎或者任何其他需要访问大量资源的计算机程序的这种时延。网络爬虫是用于寻找、浏览和下载在网络中的网站上可用的资源的程序,以便构成语料库,即能够被其他程序所使用的一组资源。它们也被称作蚂蚁、机器人、网络蜘蛛……。接下来,将它们称作“网络爬虫”,或者更简称为“爬虫”。更具体且普遍地,爬虫以访问被称作“种子”的URL(统一资源定位符)的列表开始。当爬虫访问由这些URL识别出的资源时,其识别由所述资源包含的所有URL(以超链接的形式),并且将它们增加到待访问的URL列表中。接着递归地访问这些URL,同时下载相应的资源以逐渐地建立网络爬虫。在此,将网络抓取定义为由网络爬虫存储的数字内容。由搜索引擎主要地使用这些网络爬虫,如图1所示。网络爬虫WC抓取网络并建立网络抓取WCD,其是下载资源的储存库。索引程序IDP正在使用这个网络抓取WCD,以便建立索引ID。这个索引程序IDP可以包括处理管线,其针对分析网络抓取WCD的原始资源,以将它们转换为遵循更加适于索引的格式的“对象”。例如,可以抑制某些下载资源(例如广告横幅、图像等)的部分内容,和/或查找下载资源内的某些数据,以将它们放置在待被索引的对象的专用字段内,等。索引程序IDP也处理“对象”或者原始资源,以将与它们相关联的项目进行存储,从而集中于对查询的处理。当用户U以搜索引擎SE而发起查询时,浏览索引ID以取回与所述查询的标准相匹配的项目。接着向用户U呈现这些项目,然后用户U可以选择下载或者不下载与所呈现的项目相对应的资源(例如,通过点击与项目相关联的超链接)。例如通过图形建模的方法,也可以由其他计算机程序Prog(例如批量分析程序)使用网络抓取WCD。因此,网络爬虫能够使得资源取回与处理和应用分离开。由从网络取回资源引起的时延不影响计算机程序Prog、SE的响应,也不影响索引ID的实时综合性。所述时延仅影响在某时刻可用的信息(即,下载资源)。更特别地,它们影响了在索引ID上可见的语料库(新的资源、删除的资源或更改的资源)的改变的时间。这意味着应用不是直接依靠于由爬虫所执行的资源取回任务的调度。链接到这个任务的时延和时间约束仅会影响某时刻可用的信息量(也就是,下载资源)以及它的年限和新鲜度。这还意味着网络爬虫可以构成从网络下载的数据上的元数据。更确切地说,单个索引字段可能需要在单一资源上未找到但是由多个资源的分析提供的信息。另外,Google公司的PageRank(网页排名)算法使用资源之间超链接的图形表示。建立这种图形需要对语料库的每个资源进行检查。一般而言,索引的建立需要对相同资源的多次访问。在没有网络抓取的情况下,将几次感觉到从网络取回资源的时延。并且,有时也需要部分或者完全地改变索引的结构。为了避免资源取回的时延,索引程序IDP可以使用网络抓取WCD中可用的下载资源,来替代从网络下载它们。虽有这种分离,但网络抓取任务所涉及的时延仍然存在瓶颈,并且已经采取一些工作来减少将网络语料库内的改变反映在网络抓取上所需的时间,或者将该网络抓取首先集中在最相关的改变上。然而,这些努力主要解决捕获网络语料库内的改变并且以最小的时延将它们反映在网络抓取中的问题。它们不解决最初建立新的语料库的问题。网络抓取保持非常慢的处理至少是由于以下原因:-存在由“网络礼节(netiquette)”所授权的受限制的抓取频率:为了避免链接到网络爬虫的流量使网站过载,通常容许爬虫将以每2.5秒一次的较小频率访问相同的主机网站(或主机)。此外,网站可以强制执行它们自己的策略,并且甚至可以拒绝服务超过所容许的频率的爬虫。在这种情况中,可以暂时地或者最后地禁止爬虫再次访问网站。-正如在早前所提到的,网站通常花费数百毫秒到秒来回答请求。-抓取处理不是可并行化的。在资源上发现的URL通常被用于确定将访问的新资源。在这种情况中,不能并行地下载资源并且增加了时延。另外,即使在狭窄领域中需要网络语料库,网络抓取处理也应当考虑非常大量的资源,包括与这个狭窄领域不相关的资源。其原因在于抓取处理是非选择性的一个处理:-对于仅对网络的子集感兴趣的应用,因为不感兴趣的资源可能引用感兴趣的资源,所以仍然需要全部网络的抓取。换言之,如果过滤掉不感兴趣的资源,则可能会忽略许多感兴趣的资源。-可仅在已经将资源抓取之后做出资源是否是感兴趣的决定,这是因为由资源的URL和引用其的资源所提供的信息少于由资源本身所提供的信息。增加硬件资源以减少建立网络抓取所需的时间是可能的。然而,这种解决方案不是可扩展的并且是非常昂贵的。并且,由于在处理的任务之间存在依赖性,所以其在时间增益方面并不是完全满意的方案:即使具有无穷的处理资源,它也将花费数月来抓取网络的实质性部分。例如,这已在Nature第400卷,PP.,107-109,1999年公开的SteveLawrence和C.LeeGiles的文章“AccessibilityofInformationontheWeb”中进行了说明。
技术实现思路
本专利技术的目的是至少部分缓解以上描述的缺点。更特别地,本专利技术目的在于以高效的方式来建立网络语料库,也就是,通过无需更多硬件资源而稳固这个建立。采用一种用于建立网络语料库的计算机实现的方法来达到这个目的,所述方法包括以下步骤:-由网络爬虫发送查询至参考网络抓取代理,这个查询包含资源的至少一个标识符,-由网络爬虫接收来自参考网络抓取代理的响应,-如果这个响应不包含由所述标识符所识别的资源,则通过网络爬虫从与所述标识符相对应的网站(WS)下载该资源,并且将该资源添加到网络语料库;以及,-否则,如果该响应包含由所述标识符所识别的资源,则将这个资源添加到网络语料库。优选的实施例包括下列特征的一个或多个:-参考网络抓取代理依照参考网络抓取的内容建立响应。-如果参考网络抓取代理确定资源本文档来自技高网
...

【技术保护点】
一种用于建立网络语料库(WCD)的计算机实现方法,包括以下步骤:?由网络爬虫(WC)发送查询至参考网络抓取代理(RWCA),所述查询包含资源的至少一个标识符,?由所述网络爬虫(WC)接收来自所述参考网络抓取代理(RWCA)的响应;?如果所述响应不包含由所述标识符所识别的资源,则通过所述网络爬虫(WC)从与所述标识符相对应的网站(WS)下载所述资源,并且将所述资源添加到所述网络语料库(WCD);以及,?如果所述响应包含由所述标识符所识别的资源,则将所述资源添加到所述网络语料库(WCD)。

【技术特征摘要】
2012.04.12 EP 1230543221.一种用于建立网络语料库(WCD)的计算机实现方法,包括以下步骤:-提供利用参考网络爬虫(RWC)建立且可由参考网络抓取代理(RWCA)访问的参考网络抓取(RWCD)以及根据所述参考网络抓取(RWCD)建立的参考索引(RID);并且随后-由网络爬虫(WC)发送索引查询至所述参考索引(RID);-由所述网络爬虫(WC)接收来自所述参考索引的响应;并且随后-利用所述网络爬虫(WC)来建立网络抓取(WCD),其中,所述建立所述网络抓取(WCD)包括:-由所述网络爬虫(WC)发送查询至所述参考网络抓取代理(RWCA),所述查询包含资源的至少一个标识符,其中,将所述查询发送至所述参考网络抓取代理(RWCA)是基于来自所述参考索引的所述响应的内容来完成的;-由所述网络爬虫(WC)接收来自所述参考网络抓取代理(RWCA)的响应;-如果来自所述参考网络抓取代理(RWCA)的响应不包含由所述标识符所识别的资源,则通过所述网络爬虫(WC)从与所述标识符相对应的网站(WS)下载所述资源,并且将所述资源添加到所述网络语料库(WCD);以及,-如果来自所述参考网络抓取代理(RWCA)的响应包含由所述标识符所识别的资源,则将所述资源添加到所述网络语料库(WCD),其中,所述参考网络抓取代理(RWCA)依照所述参考网络抓取(RWCD)的内容建立响应。2.根据权利要求1所述的计算机实现方法,其中,如果所述参考网络抓取代理(RW...

【专利技术属性】
技术研发人员:S·里夏尔X·格勒昂J·费伦齐
申请(专利权)人:艾克萨利德公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1