网页类型识别方法和装置制造方法及图纸

技术编号:21630278 阅读:23 留言:0更新日期:2019-07-17 11:31
本发明专利技术公开了一种网页类型识别方法和装置。其中,该方法包括:获取网页的页面内容;根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确。本发明专利技术解决了现有技术中判断网页是目录页还是内容页时准确率较低的技术问题。

Web Page Type Recognition Method and Device

【技术实现步骤摘要】
网页类型识别方法和装置
本专利技术涉及计算机互联网领域,具体而言,涉及一种网页类型识别方法和装置。
技术介绍
当前的爬虫技术有很多需要判断网页页面的类型,分析抓取的字段,其中一个很重要的环节是判断当前网页的页面是目录页还是内容页,但是网页布局多样化,网页的URL(统一资源定位符,UniformResourceLocator的缩写)的形式也是多种多样,使用网页URL的方式进行的判断并不能百分之百的判断正确,因此现有技术还不能实现准确率较高的判断网页是目录页还是内容页。针对上述现有技术中判断网页是目录页还是内容页时准确率较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网页类型识别方法和装置,以至少解决现有技术中判断网页是目录页还是内容页时准确率较低的技术问题。根据本专利技术实施例的一个方面,提供了一种网页类型识别方法,包括:获取网页的页面内容;根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确。根据本专利技术实施例的另一方面,还提供了一种网页类型识别装置,包括:获取模块,用于获取网页的页面内容;第一确定模块,用于根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;第二确定模块,用于在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确。根据本专利技术实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述网页类型识别方法。根据本专利技术实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述网页类型识别方法。根据本专利技术实施例的另一方面,还提供了一种终端,包括:获取模块,用于获取网页的页面内容;第一确定模块,用于根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;第二确定模块,用于在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确;处理器,处理器运行程序,其中,程序运行时对于从获取模块、第一确定模块和第二确定模块输出的数据执行上述网页类型识别方法。根据本专利技术实施例的另一方面,还提供了一种终端,包括:获取模块,用于获取网页的页面内容;第一确定模块,用于根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;第二确定模块,用于在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确;存储介质,用于存储程序,其中,程序在运行时对于从获取模块、第一确定模块和第二确定模块输出的数据执行上述网页类型识别方法。在本专利技术实施例中,采用二次确定的方式,通过获取网页的页面内容,根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确,达到了识别网页是内容页还是目录页的目的,并且使用不同的确定标准,经过初次确定和二次确定,从而实现了对网页的识别结果准确度高的技术效果,进而解决了现有技术中判断网页是目录页还是内容页时准确率较低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种网页类型识别方法的示意图;图2是根据本专利技术实施例的一种可选的网页类型识别方法的示意图;以及图3是根据本专利技术实施例的一种网页类型识别装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种网页类型识别方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的网页类型识别方法,如图1所示,该方法包括如下步骤:步骤S102,获取网页的页面内容。具体的,网页的页面内容包括但不限于文字、图片、链接等。步骤S104,根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页。具体的,可以根据网页的页面内容中文字和链接的比例来初步判断网页是内容页还是目录页,其中,内容页一般为文字内容较多的网页,目录页一般为链接较多的网页,因此,如果页面内容中文字多链接少,则可以初步判断该网页为内容页,如果页面内容中文字少链接多,则可以判断该网页为目录页,可选的,可以预先设置一个比例阈值,如果页面内容中文字和链接的比例超过该比例阈值,则初步判断该网页为内容页,如果页面内容中文字和链接的比例低于该比例阈值,则判断该网页为目录页,此处需要注意的是,该比例阈值可以自定义设置。步骤S106,在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确。具体的,初步判断后可以对网页的类型进行一个初步确定,如果初步确定网页的类型是目录页,则不再进行二次确定,如果初步确定网页的类型是内容页,则还需要进一步验证初步确定的网页的类型是否准确,也就是二次确定初步确定是内容页的网页是否真的是内容页,二次确定的判断基础为网页的网页地址。在本专利技术实施例中,采用二次确定的方式,通过获取网页的页面内容,根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确,达到了识别网页是内容页还是目录页的目的,并且使用不同的确定标准,经过初次确定和二次确定,从而实现了对网页的识别结果准确度高的技术效果,进而解决了现有技术中判断网页是目录页还是内容页时准确率较低的技术问题。在一种可选的实施例中,步骤S102中获取网页的页面内容包括:获取网页的页面内容中的主要内容。具体的,步骤S102中获取网页的页面内容包括获取网页的页面内容中的特定区域的内容,优选的,该特定区域本文档来自技高网
...

【技术保护点】
1.一种网页类型识别方法,其特征在于,包括:获取网页的页面内容;根据所述页面内容中文字和链接的比例初步确定所述网页的类型,其中,所述网页的类型包括:内容页和目录页;在初步确定所述网页的类型为所述内容页的情况下,根据所述网页的网页地址进一步验证初步确定的所述网页的类型是否准确。

【技术特征摘要】
1.一种网页类型识别方法,其特征在于,包括:获取网页的页面内容;根据所述页面内容中文字和链接的比例初步确定所述网页的类型,其中,所述网页的类型包括:内容页和目录页;在初步确定所述网页的类型为所述内容页的情况下,根据所述网页的网页地址进一步验证初步确定的所述网页的类型是否准确。2.根据权利要求1所述的方法,其特征在于,获取网页的页面内容包括:获取所述网页的页面内容中的主要内容。3.根据权利要求1或2所述的方法,其特征在于,获取网页的页面内容包括:通过如下至少之一的方式获取所述网页的页面内容:可扩展标记语言的方式、正则的方式和所述网页的网页地址的方式。4.根据权利要求1所述的方法,其特征在于,根据所述网页的网页地址进一步验证初步确定的所述网页的类型是否准确,包括:根据所述网页的网页地址是否符合内容页网页地址通用规则进一步验证初步确定的所述网页的类型是否准确。5.根据权利要求4所述的方法,其特征在于,根据所述网页的网页地址是否符合内容页网页地址通用规则进一步验证初步确定的所述网页的类型是否准确,包括:在所述网页的网页地址符合内容页网页地址通用规则的情况下,确定所述网页的类型为所述内容页;在所述网页的网页地址不符合内容页网页地址通用规则的情况下,确定所述网页的类型为所述目录页。6.一种网页类型识别装置,其特征在于,包括:获取模块,用于获取网页的页面内容;第一确定模块,用于根据所述页面内容中文字和链接的比例初步确定所述网页的类型,其中,所述网页的类型包括:内容页和目录页;第二确定模块,用于在初步确定所述网页的类型...

【专利技术属性】
技术研发人员:张野
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1