网页识别方法及装置和设置率确定方法和装置制造方法及图纸

技术编号:15690893 阅读:153 留言:0更新日期:2017-06-24 03:39
本申请公开了一种网页识别方法及装置和设置率确定方法和装置。其中,该方法包括:从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志;对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源;判断访问来源的网页是否为目标网站中除首页页面之外的其他网页;以及在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接。本申请解决了现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。

Web page identifying method and device and setting rate determining method and device

The invention discloses a web page identification method and device and a setting rate determining method and device. Among them, the method includes: from the access log of the target site in the query object access log, the target access log for access to the target site of the home page of the log; analyze the target access log, extract the access to the target site's home page to access the source; judging whether a web page is to access the source in addition to other web pages the home page outside the target site; and in access to the source page is home page in other web pages outside the target site, determine the access source \is provided with a return to the home page links. The utility model solves the technical problems of low efficiency and heavy workload in the prior art to determine whether or not the page is provided with links to return home pages by manual means.

【技术实现步骤摘要】
网页识别方法及装置和设置率确定方法和装置
本申请涉及互联网领域,具体而言,涉及一种网页识别方法及装置和设置率确定方法和装置。
技术介绍
在互联网领域,为了提高网站的导航效果,通常会在网站中的网页上设置返回首页链接,用户在浏览网站的过程中可以直接通过该链接返回到网站的首页。网站返回首页链接设置率指的是网站中设置返回首页链接的网页占全部网页的比值。返回首页链接设置率这一指标在很大程度上反应了网站的用户体验情况,也是评价网站绩效的一项重要指标。目前,通常是通过人工搜索的方式来确定网页上是否设置了返回首页链接。具体地,通过人工登陆访问网站,查看该网站的网页上是否设置了返回首页链接,进而统计设置了返回首页链接的网页数,用以计算返回首页链接设置率。然而,由于通过人工方式来确定网页上是否设置返回首页链接,其效率低且工作量大。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网页识别方法及装置和设置率确定方法和装置,以至少解决现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。根据本申请实施例的一个方面,提供了一种网页识别方法,包括:从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在目标网站的网页上用于跳转回目标网站的首页页面的链接。进一步地,判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页包括:判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。进一步地,对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源包括:从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。进一步地,从目标网站的访问日志中查询出目标访问日志包括:将所述目标网站的首页页面对应的统一资源定位符与所述目标网站的访问日志进行匹配;将从所述目标网站的访问日志中匹配出的包含有所述目标网站的首页页面对应的统一资源定位符的访问日志作为所述目标访问日志。根据本申请实施例的另一方面,还提供了一种设置率确定方法,包括:对目标网站的访问日志进行解析,统计出所述目标网站中被访问的网页总数;识别出目标网页,统计所述目标网页的数量,其中,所述目标网页为设置有返回首页链接的网页;以及根据所述网页总数和所述目标网页的数量计算得到所述目标网站上的所述返回首页链接的设置率。根据本申请实施例的另一方面,还提供了一种网页识别装置,包括:查询单元,用于从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;提取单元,用于对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断单元,用于判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及确定单元,用于在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在目标网站的网页上用于跳转回目标网站的首页页面的链接。进一步地,所述判断单元包括:判断模块,用于判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;第一确定模块,用于在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。进一步地,所述提取单元具体用于从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。进一步地,所述查询单元包括:匹配模块,用于将所述目标网站的首页页面对应的统一资源定位符与所述目标网站的访问日志进行匹配;第二确定模块,用于将从所述目标网站的访问日志中匹配出的包含有所述目标网站的首页页面对应的统一资源定位符的访问日志作为所述目标访问日志。根据本申请实施例的另一方面,还提供了一种设置率确定装置,包括:第一统计单元,用于对目标网站的访问日志进行解析,统计出所述目标网站中被访问的网页总数;第二统计单元,用于识别出目标网页,统计所述目标网页的数量,其中,所述目标网页为设置有返回首页链接的网页;以及计算单元,用于根据所述网页总数和所述目标网页的数量计算得到所述目标网站上的所述返回首页链接的设置率。根据本申请实施例,从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志,对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源,判断访问来源的网页是否为目标网站中除首页页面之外的其他网页,在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接,通过解析访问日志,识别出设置有返回首页链接的网页,相对于现有技术中的人工方式,提高了效率,降低了工作量,解决了现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的网页识别方法的流程图;图2是根据本申请实施例的设置率确定方法的流程图;图3是根据本申请实施例的网页识别装置的示意图;图4是根据本申请实施例的设置率确定装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种网页识别方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步本文档来自技高网
...
网页识别方法及装置和设置率确定方法和装置

【技术保护点】
一种网页识别方法,其特征在于,包括:从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在所述目标网站的网页上用于跳转回所述目标网站的首页页面的链接。

【技术特征摘要】
1.一种网页识别方法,其特征在于,包括:从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在所述目标网站的网页上用于跳转回所述目标网站的首页页面的链接。2.根据权利要求1所述的方法,其特征在于,判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页包括:判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。3.根据权利要求2所述的方法,其特征在于,对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源包括:从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。4.根据权利要求2所述的方法,其特征在于,从目标网站的访问日志中查询出目标访问日志包括:将所述目标网站的首页页面对应的统一资源定位符与所述目标网站的访问日志进行匹配;将从所述目标网站的访问日志中匹配出的包含有所述目标网站的首页页面对应的统一资源定位符的访问日志作为所述目标访问日志。5.一种设置率确定方法,其特征在于,包括:对目标网站的访问日志进行解析,统计出所述目标网站中被访问的网页总数;利用权利要求1至4中任一项所述的网页识别方法识别出目标网页,统计所述目标网页的数量,其中,所述目标网页为设置有返回首页链接的网页;以及根据所述网页总数和所述目标网页的数量计算得到所述目标网站上的所述返回首页链接的设置率。6.一种网页识别装...

【专利技术属性】
技术研发人员:李新国冯鸳鹤吴茜
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1