记录引用信息、查询引用路径的方法、装置制造方法及图纸

技术编号:20866570 阅读:71 留言:0更新日期:2019-04-17 09:21
本发明专利技术公开了一种记录引用信息、查询引用路径的方法、装置及存储介质。所述记录引用信息的方法,包括:获取多个目标网页中的每个网页的解析信息,所述解析信息中包括每个网页引用的其他目标网页;根据所述解析信息得到所述每个网页与所述其他目标网页之间的直接引用关系和直接被引用关系;将所述直接引用关系进行对应存储,以得到所述每个网页的具有所述直接引用关系的网页引用信息,以及将所述直接被引用关系进行对应存储,以得到所述每个网页的具有所述直接被引用关系的网页被引用信息。所述方法相较于记录每个网页完整引用关系,一方面使记录的过程更简单,另一方面不会记录重复的引用和被引用关系,避免了记录引用信息的重复性。

【技术实现步骤摘要】
记录引用信息、查询引用路径的方法、装置
本专利技术涉及信息处理
,具体而言,涉及记录引用信息、查询引用路径的方法及装置。
技术介绍
一个网页中通常会包含着许多其他网页的链接,这种包含关系能够代表网页与网页之间的引用关系,在网络爬虫或站点监控程序中经常需要记录这些引用关系,使用这些引用关系为数据处理提供依据。记录网页引用信息最简单的方法就是记录单一的引用字段,比如直接记录HTTP请求头中的referer字段,但这种结构太过简单,不便于应用。另一种方法,是在爬虫爬取过程中,在每一个请求或者响应中记录从爬取起点网页到当前网页中间经过的所有网页,这相当于在每一个请求或响应中记录了相关的完整引用关系,这种方法的缺点在于不同请求里记录的引用关系有很多信息是重复的,消耗存储空间。
技术实现思路
本专利技术在于提供一种记录引用信息、查询引用路径的方法、装置及存储介质,以解决记录引用信息的重复性的技术问题。本申请的实施例通过如下方式实现:第一方面,本专利技术提供一种记录引用信息的方法,包括:获取多个目标网页中的每个网页的解析信息,所述解析信息中包括每个网页中包含的其他网页;根据所述解析信息得到所述每个网页与所述其他网页之间的直接引用关系;将所述直接引用关系进行对应存储,以得到所述每个网页的具有所述直接引用关系的网页引用信息。在本专利技术实施例的方案中,将每个网页与其他网页之间的直接引用关系和直接被引用关系进行对应存储,得到了每个网页的具有所述直接引用关系的网页引用信息和具有所述直接被引用信息的网页被引用信息。相较于记录每个网页完整引用关系,一方面使记录的过程更简单,另一方面不会记录重复的引用和被引用关系,避免了记录引用信息的重复性。结合第一方面,在第一方面的第一种可能的实现方式中,将所述直接引用关系进行对应存储,包括:将所述直接引用关系中每个网页直接引用的网页的标识存储到所述每个网页分别对应的引用集合中。通过这种对应存储方式,使每个引用集合中存储的都是指定网页直接引用的网页的标识。结合第一方面,在第一方面的第二种可能的实现方式中,将所述直接被引用关系进行对应存储,包括:将所述直接被引用关系中每个网页直接被引用于的网页的标识存储到所述每个网页分别对应被引用集合中。使每个被引用集合中存储的都是同一个网页被直接引用于的所有网页的标识,方便被引用关系的查询。结合第一方面,在第一方面的第三种可能的实现方式中,在将所述直接引用关系进行对应存储后,所述方法还包括:获取引用路径的查询请求,所述查询请求中包括起点网页和终点网页;其中,所述起点网页和/或终点网页为一个或者多个网页;从所述起点网页对应的网页引用信息开始遍历所有存储的相关网页引用信息并记录遍历的过程网页标识,直至遍历到所述终点网页或者遍历完所有的所述网页引用信息;确定从所述起点网页的标识记录至所述终点网页的标识的路径为所述查询请求对应的引用路径。通过遍历查找起点网页到终点网页的引用路径的方式,能够完整的还原起点网页到终点网页的一条或多条引用路径。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述方法还包括:将所述查询请求与所述查询请求对应的引用路径进行对应存储;在获取到新的查询请求时,查找是否有与所述新的查询请求相同的存储的查询请求;在查找到与所述新的查询请求相同的存储的查询请求时,将所述存储的查询请求对应的引用路径作为所述新的查询请求对应的结果。通过存储已经查询到的引用路径,在以后有相同的查询请求时,可直接得到对应的引用路径。结合第一方面,在第一方面的第五种可能的实现方式中,在将所述直接被引用关系进行对应存储后,所述方法还包括:获取被引用路径的查询请求,所述查询请求中包括起点网页和终点网页;其中,所述起点网页和/或终点网页为一个或者多个网页;从所述起点网页对应的网页被引用信息开始遍历所有存储的相关网页被引用信息并记录遍历的过程网页标识,直至遍历到所述终点网页或者遍历完所有的所述网页被引用信息;确定从所述起点网页的标识记录至所述终点网页的标识的路径为所述查询请求对应的被引用路径。通过遍历查找起点网页到终点网页的被引用路径的方式,能够完整的还原起点网页到终点网页的一条或多条被引用路径。结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述方法还包括:将所述查询请求与所述查询请求对应的被引用路径进行对应存储;在获取到新的查询请求时,查找是否有与所述新的查询请求相同的存储的查询请求;在查找到与所述新的查询请求相同的存储的查询请求时,将所述存储的查询请求对应的被引用路径作为所述新的查询请求对应的结果。通过存储已经查询到的被引用路径,在以后有相同的查询请求时,可直接得到对应的被引用路径。第二方面,本专利技术还提供一种查询引用路径的方法,所述方法包括:获取引用路径的查询请求,所述查询请求中包括起点网页和终点网页;其中,所述起点网页和/或终点网页为一个或者多个网页;在所述查询请求为引用路径的查询请求时,根据所述引用路径的查询请求和预先存储的具有直接引用关系的网页引用信息得到与所述引用路径的查询请求对应的引用路径;在所述查询请求为被引用路径的查询请求时,根据所述被引用路径的查询请求和预先存储的具有直接被引用关系的网页被引用信息得到与所述被引用路径的查询请求对应的被引用路径。在本专利技术实施例的方案中,在预先存储的网页引用信息得到与所述查询请求对应的引用路径,能够快速准确的得到与查询请求对应的引用路径。第三方面,本专利技术还提供一种记录引用信息的装置,所述装置包括用于实现第一方面所述的方法的功能模块。第四方面,本专利技术还提供一种查询引用路径的装置,所述装置包括用于实现第二方面所述的方法的功能模块。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举本专利技术实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的记录引用信息的方法流程图;图2本专利技术实施例提供的遍历流程图;图3为本专利技术实施例提供的记录引用信息的装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。下面结合附图,对本专利技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。请参照图1,是本专利技术提供的一种记录引用信息的方法流程图,所述方法包括:步骤本文档来自技高网...

【技术保护点】
1.一种记录引用信息的方法,其特征在于,包括:获取多个目标网页中的每个网页的解析信息,所述解析信息中包括每个网页引用的其他目标网页;根据所述解析信息得到所述每个网页与所述其他目标网页之间的直接引用关系和直接被引用关系;将所述直接引用关系进行对应存储,以得到所述每个网页的具有所述直接引用关系的网页引用信息,以及将所述直接被引用关系进行对应存储,以得到所述每个网页的具有所述直接被引用关系的网页被引用信息。

【技术特征摘要】
1.一种记录引用信息的方法,其特征在于,包括:获取多个目标网页中的每个网页的解析信息,所述解析信息中包括每个网页引用的其他目标网页;根据所述解析信息得到所述每个网页与所述其他目标网页之间的直接引用关系和直接被引用关系;将所述直接引用关系进行对应存储,以得到所述每个网页的具有所述直接引用关系的网页引用信息,以及将所述直接被引用关系进行对应存储,以得到所述每个网页的具有所述直接被引用关系的网页被引用信息。2.根据权利要求1所述的方法,其特征在于,将所述直接引用关系进行对应存储,包括:将所述直接引用关系中每个网页直接引用的网页的标识存储到所述每个网页分别对应的引用集合中。3.根据权利要求1所述的方法,其特征在于,将所述直接被引用关系进行对应存储,包括:将所述直接被引用关系中每个网页直接被引用于的网页的标识存储到所述每个网页分别对应被引用集合中。4.根据权利要求1所述的方法,其特征在于,在将所述直接引用关系进行对应存储后,所述方法还包括:获取引用路径的查询请求,所述查询请求中包括起点网页和终点网页;其中,所述起点网页和/或终点网页为一个或者多个网页;从所述起点网页对应的网页引用信息开始遍历所有存储的相关网页引用信息并记录遍历的过程网页标识,直至遍历到所述终点网页或者遍历完所有的所述网页引用信息;确定从所述起点网页的标识记录至所述终点网页的标识的路径为所述查询请求对应的引用路径。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所述查询请求与所述查询请求对应的引用路径进行对应存储;在获取到新的查询请求时,查找是否有与所述新的查询请求相同的存储的查询请求;在查找到与所述新的查询请求相同的存储的查询请求时,将所述存储的查询请求对应的引用路径作为所述新的查询请求对应的结果。6.根据权利要求1所述的方法,其特征在于,在将所述直接被引用关系进行对应存储后,所述方法还包括:获取被引用路径的查询请求,所述查询请求中包括起点网页和终点网页;其中,所述起点网页和/或终点网页为一个或者多个网页;从所述起点网页对应的网页被引用信息开始遍历所有存储的相关网页被引用信息并记录遍历的过程网页标识,直至遍历到所述终点网页或者遍历完所有的所述网页被...

【专利技术属性】
技术研发人员:吴梓靖
申请(专利权)人:北京知道创宇信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1