收录索引信息的方法及下载验证服务器技术

技术编号:7917654 阅读:171 留言:0更新日期:2012-10-25 02:37
本发明专利技术公开了一种收录索引信息的方法及下载验证服务器,属于计算机技术领域。所述方法包括:获取爬虫服务器推送的下载链接;从所述下载链接下载文件的部分内容;根据下载的部分内容计算所述文件的索引信息;建立所述文件的索引信息和所述下载链接之间的映射关系,并上报给数据库服务器收录。所述装置包括:第一获取模块、下载模块、计算模块和建立模块。本发明专利技术通过仅下载文件的部分内容,根据下载的部分内容计算文件的索引信息,用来作为这个文件内容的唯一标识,而不再采用现有技术中下载整个文件的内容来计算索引信息,提高了文件索引信息和链接入库的速度,大幅度提升了资源收录的效率;另外,减少了占用的文件中转空间。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种收录索引信息的方法及下载验证服务器
技术介绍
P2SP(Peer to Server & Peer,点对服务器和点)是一种用户下载技术,此处"Peer"(点)即网络节点或终端,可以理解为用户计算机。所谓P2SP是指下载不再像传统方式那样只能依赖服务器,下载客户端可以从网络上的服务器和其它任意终端中下载内容。P2SP后台由一组功能服务器组成,包括爬虫服务器、下载验证服务器和数据库服务 器等等,实现P2SP的主要功能。数据库服务器中存储有用于唯一标识文件的Hash (哈希)值和与该Hash值对应的URL (Universal Resource Locator,统一资源定位符)链接,这些URL链接都可以用于下载该Ha sh值代表的文件。在P2SP下载技术中,下载客户端要下载某个文件时,用下载该文件的入口 URL链接去数据库服务器中查找对应的Hash值,找到后获取与该Hash值对应的其他URL链接,作为下载的辅助源,辅助源越多,下载速度越快。数据库服务器中辅助源的来源途径有两个,一是客户端下载完成后计算文件的Hash值,并将该Hash值和URL链接上报给数据库服务器,二是通过爬虫服务器从互联网上收录下载页面并从中抽取用于下载的URL链接,将这些URL链接去重后推送到下载验证服务器,然后由下载验证服务器从URL链接下载对应的文件,待整个文件下载完毕后,读取整个文件的内容计算文件Hash值,然后将文件的URL链接和Hash值之间相互的映射关系存入数据库服务器。同一个文件通常在不同的网站有不同链接,也就是说同一个Hash值可以映射多个URL链接,因此在P2SP系统中用文件的Hash值作为索引信息。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下缺点现有技术通过爬虫服务器和下载验证服务器主动收录辅助源时,由于收录的过程中下载验证服务器需要下载和读取整个文件的内容来计算Hash值,以该Hash值作为索引信息,导致收录的速度慢;当爬虫服务器爬取到大量新URL链接需要入库的时候,需要大量的中转空间来保存临时下载的文件,导致需要投入大量用于中转的空间。
技术实现思路
为了实现文件索引信息的快速收录,节约文件中转空间,本专利技术实施例提供了一种收录索引信息的方法及下载验证服务器。所述技术方案如下—方面,提供了一种收录索引信息的方法,所述方法包括获取爬虫服务器推送的下载链接;从所述下载链接下载文件的部分内容;根据下载的部分内容计算所述文件的索引信息;建立所述文件的索引信息和所述下载链接之间的映射关系,并上报给数据库服务器收录。其中,所述从所述下载链接下载文件的部分内容,包括从所述下载链接下载文件的头部、中间和尾部三部分内容;相应地,所述根据下载的部分内容计算所述文件的索引信息,包括分别计算所述文件的头部、中间和尾部三部分内容的哈希值;将计算得到的三个哈希值合在一起再次计算哈希值,并将最后计算得到的哈希值作为所述文件的索引信息。 进一步地,所述从所述下载链接下载文件的头部、中间和尾部三部分内容,包括获取所述下载链接对应的文件信息,所述文件信息包括文件的大小;根据所述文件的大小和预设的分片大小将所述文件分片;根据所述分片大小和偏移量从所述下载链接下载所述文件的第一片、中间一片和最后一片内容分片;相应地,所述分别计算所述文件的头部、中间和尾部三部分内容的哈希值,包括分别计算所述文件的第一片、中间一片和最后一片内容分片的哈希值。可选地,所述将计算得到的三个哈希值合在一起再次计算哈希值之前,还包括获取所述文件的辅助信息;相应地,所述将计算得到的三个哈希值合在一起再次计算哈希值,并将最后计算得到的哈希值作为所述文件的索引信息,包括将计算得到的三个哈希值和所述辅助信息拼接在一起再次计算哈希值,并将最后计算得到的哈希值作为所述文件的索引信息;或,将计算得到的三个哈希值拼接在一起再次计算哈希值,并将最后计算得到的哈希值和所述辅助信息拼接在一起作为所述文件的索引信息。其中,所述辅助信息为所述文件的大小,或,文件扩展名。另一方面,提供了一种下载验证服务器,所述下载验证服务器包括第一获取模块,用于获取爬虫服务器推送的下载链接;下载模块,用于从所述第一获取模块获取的下载链接下载文件的部分内容;计算模块,用于根据所述下载模块下载的部分内容计算所述文件的索引信息;建立模块,用于建立所述计算模块计算的所述文件的索引信息和所述下载链接之间的映射关系,并上报给数据库服务器收录。其中,所述下载模块,具体用于从所述第一获取模块获取的下载链接下载文件的头部、中间和尾部三部分内容;相应地,所述计算模块,具体用于分别计算所述下载模块下载的文件的头部、中间和尾部三部分内容的哈希值;将计算得到的三个哈希值合在一起再次计算哈希值,并将最后计算得到的哈希值作为所述文件的索引信息。进一步地,所述下载模块,具体用于获取所述下载链接对应的文件信息,所述文件信息包括文件的大小;根据所述文件的大小和预设的分片大小将所述文件分片;根据所述分片大小和偏移量从所述下载链接下载所述文件的第一片、中间一片和最后一片内容分片;相应地,所述计算模块用于分别计算所述下载模块下载的文件的头部、中间和尾部三部分内容的哈希值时,具体用于分别计算所述文件的第一片、中间一片和最后一片内容分片的哈希值。可选地,所述下载验证服务器还包括第二获取模块,用于在所述计算模块将计算得到的三个哈希值合在一起再次计算哈希值之前,获取所述文件的辅助信息;相应地,所述计算模块用于将计算得到的三个哈希值合在一起再次计算哈希值,并将最后计算得到的哈希值作为所述文件的索引信息时,具体用于将计算得到的三个哈希值和所述第二获取模块获取的辅助信息拼接在一起再次计算哈希值,并将最后计算得到的哈希值作为所述文件的索引信息;或,将计算得到的三个哈希值拼接在一起再次计算哈希值,并将最后计算得到的哈希值和所述第二获取模块获取的辅助信息拼接在一起作为所述文件的索引信息。 本专利技术实施例提供的技术方案的有益效果是通过仅下载文件的部分内容,根据下载的部分内容计算文件的索引信息,用来作为这个文件内容的唯一标识,而不再采用现有技术中下载整个文件的内容来计算索引信息,结果大大提高了文件索引信息和链接入库的速度,大幅度提升了资源收录的效率;另夕卜,仅下载文件的部分内容和现有技术中下载全部文件相比,占用的文件中转空间大大减少,节约了资源。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本专利技术实施例一提供的收录索引信息的方法流程图;图2是本专利技术实施例二提供的收录索引信息的方法流程图;图3是本专利技术实施例三提供的下载验证服务器的结构示意图;图4是本专利技术实施例三提供的另一种下载验证服务器的结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一本专利技术实施例提供了一种收录索引信息的方法,参见图1,方法流程具体如下101 :获取爬虫服务器推送的下载链接,并从下载本文档来自技高网
...

【技术保护点】
一种收录索引信息的方法,其特征在于,所述方法包括:获取爬虫服务器推送的下载链接;从所述下载链接下载文件的部分内容;根据下载的部分内容计算所述文件的索引信息;建立所述文件的索引信息和所述下载链接之间的映射关系,并上报给数据库服务器收录。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄琰刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1