一种网页分类的确定方法及装置制造方法及图纸

技术编号:16969708 阅读:45 留言:0更新日期:2018-01-07 06:37
本申请实施例提供了一种网页分类的确定方法及装置,涉及网络通信技术领域。所述方法包括:确定待分类网页;获得待分类网页的外链网页,其中,该外链网页为:网页内容中存在待分类网页的地址的网页;按照预设的分类方式,确定各个外链网页的参考分类;根据所确定的各个外链网页的参考分类,确定待分类网页的分类。应用本申请实施例提供的方案,能够提高所确定的网页分类的准确性。

【技术实现步骤摘要】
一种网页分类的确定方法及装置
本申请涉及网络通信
,特别是涉及一种网页分类的确定方法及装置。
技术介绍
网络中的网页数量非常大,这些网页可能分别属于各种各样的类型,这些类型可以包括新闻类、教育类、体育类、购物类等。目前,网页分类可以应用于各种场景。例如,应用于网页过滤或应用于建立网页分类库等。在应用于网页过滤时,常常需要先确定网页的分类,然后根据确定的分类对网页进行过滤。现有技术中,在确定网页分类时,可以先获得待分类网页的标题信息,然后将该标题信息与预设的分类字典进行匹配,根据匹配结果确定上述网页所归属的分类,其中,分类字典一般存储各个分类以及每个分类的关键词。通常,采用上述方法可以较准确地确定常见网页的分类。但是,目前很多网页都把标题信息的范围描述得非常宽泛,使得这些网页的标题信息不能很好地反映网页的类型。因此,在这种情况下采用上述方法确定这些网页的分类时可能会存在一定误差,所确定的网页分类准确性不够高。
技术实现思路
本申请实施例的目的在于提供了一种网页分类的确定方法及装置,以提高所确定的网页分类的准确性。具体的技术方案如下。为了达到上述目的,本申请实施例公开了一种网页分类的确定方法,所述方法包括:确定待分类网页;获得所述待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页;按照预设的分类方式,确定各个外链网页的参考分类;根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类。为了达到上述目的,本申请实施例公开了一种网页分类的确定装置,所述装置包括:网页确定模块,用于确定待分类网页;外链获得模块,用于获得所述待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页;参考确定模块,用于按照预设的分类方式,确定各个外链网页的参考分类;分类确定模块,用于根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类。本申请实施例提供的网页分类的确定方法及装置,可以获得待分类网页的外链网页,按照预设的分类方式确定各个外链网页的参考分类,根据所确定的各个外链网页的参考分类,确定待分类网页的分类。由于各个外链网页一般是与待分类网页相关联的网页,因此根据外链网页所归属的参考分类确定待分类网页的分类,相比于直接根据待分类网页确定网页分类,能够提高所确定的网页分类的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的网页分类的确定方法的一种流程示意图;图2为图1中步骤S104的一种流程示意图;图3为本申请实施例提供的网页分类的确定装置的一种结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供了一种网页分类的确定方法及装置,能够提高所确定的网页分类的准确性。下面通过具体实施例,对本申请进行详细说明。图1为本申请实施例提供的网页分类的确定方法的一种流程示意图,应用于电子设备,该电子设备可以包括路由器、交换机等网关设备,也可以包括常见的计算机、平板电脑、智能手机等设备。该方法包括如下步骤:步骤S101:确定待分类网页。其中,待分类网页可以是临时确定的,也可以是从预设的网页库中确定的。网页库用于存储各个网页。具体的,本实施例可以采用确定待分类网页的地址的方式确定待分类网页。其中,待分类网页的地址包括统一资源定位器(UniformResoureLocator,URL)地址。以下所述的网页地址均可以包括URL地址。步骤S102:获得待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页。具体的,获得待分类网页的外链网页时,可以从预设的外链网页关系库中获得待分类网页的外链网页。其中,外链网页关系库用于存储各个网页及对应的外链网页。另外,外链网页关系库还可以用于存储各个外链网页的地址或网页信息等。作为一个例子,表1中列出了各个网页及对应的外链网页、外链网页的地址和网页信息。表1网页外链网页外链网页的地址外链网页包含的网页信息网页1网页4abc.com一个招聘网站网页1网页5Sdc.gov提供人力资源服务网页1网页6Syds.com更专业的人才招聘网页2网页3112.com提供最快速最专业的体育新闻网页2网页7Yyy.com体育赛事报道网页2网页8A11.com敬请关注大师赛根据表1所示的外链网页关系库,当待分类网页为网页1时,可以从表1中获得与网页1对应的外链网页包括网页4、网页5和网页6。可以理解的是,从预设的外链网页关系库中获得待分类网页的外链网页,能够提高获得外链网页时的效率。具体的,上述外链网页关系库可以采用以下方式预先获得:各个样本网页的内链网页,生成样本网页与内链网页的对应关系,其中,一个样本网页的内链网页为该样本网页的网页内容中存在的其他网页的地址对应的网页。对于内链网页来说,内链网页对应的样本网页,即为该内链网页的外链网页。相应的,在建立如表1所示的外链网页关系库时,该外链网页关系库中的网页即为内链网页,外链网页即为样本网页。其中,样本网页可以是网页导航中的各个网页。例如,该网页导航可以是hao123网站导航、搜狗网站导航、2345网站导航等。可以理解的是,确定的内链网页可以作为样本网页,继续确定该内链网页的内链网页,以建立更多的外链网页关系。作为一个例子,已知样本网页包括网页1、网页2……网页1000等网页。下面以网页1为例具体说明。针对网页1,采用爬虫技术获得网页1的网页内容,从该网页内容中提取到的网页地址包括a.com、d.com、c.com、e.com等,提取的网页地址不包括网页1的网页地址。假设,这些网页地址对应的网页分别为网页21、网页30、网页33、网页55,可以确定“网页21、网页30、网页33、网页55”均为与网页1对应的内链网页。同时,还可以提取网页1的网页信息并存储。对上述网页1、网页2……网页1000分别执行上述操作,得到的样本网页与内链网页的对应关系可以见表2。表2样本网页内链网页网页1网页21,网页30,网页33,网页55网页2网页5网页3网页6,网页2网页4网页1,网页30,网页33,网页55网页5网页1,网页90,网页6网页1,网页70…………网页1000网页700,网页20、网页303、网页57在获得表2所示的样本网页与内链网页的对应关系后,便可以获得各个网页及对应的外链网页。例如,针对网页1,在获得网页1的外链网页时,可以查找表2中的内链网页一列是否存在网页1,查找结果显示网页1存在于网页4、网页5和网页6的内链网页中,因此可以将网页4、网页5和网页6确定为网页1的外链网页。针对其他网页,可以采用与上述类似的过程确定其他网页的外链网页。作为另一种实施方式,在获得待分类网页的外链网页时,本文档来自技高网...
一种网页分类的确定方法及装置

【技术保护点】
一种网页分类的确定方法,其特征在于,所述方法包括:确定待分类网页;获得所述待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页;按照预设的分类方式,确定各个外链网页的参考分类;根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类。

【技术特征摘要】
1.一种网页分类的确定方法,其特征在于,所述方法包括:确定待分类网页;获得所述待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页;按照预设的分类方式,确定各个外链网页的参考分类;根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类。2.根据权利要求1所述的方法,其特征在于,所述获得所述待分类网页的外链网页的步骤,包括:从预设的外链网页关系库中获得所述待分类网页的外链网页;其中,所述外链网页关系库,用于存储各个网页及对应的外链网页。3.根据权利要求2所述的方法,其特征在于,所述按照预设的分类方式,确定各个外链网页的参考分类的步骤,包括:获得各个外链网页的地址,从各个外链网页的地址中提取对应的地址特征,根据所获得的地址特征以及预设的地址特征与分类的对应关系,确定各个外链网页的参考分类;或者,获得各个外链网页对应的网页信息,根据所获得的网页信息以及预设的分类字典,确定各个外链网页的参考分类。4.根据权利要求3所述的方法,其特征在于,所述根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类的步骤,包括:将所确定的各个外链网页的参考分类确定为所述待分类网页的分类;或者,确定所述分类字典中每一个分类在第一参考分类组中的第一出现次数,所述第一参考分类组包括所确定的各个外链网页的参考分类,将第一出现次数值最大的分类确定为所述待分类网页的分类;或者,获得各个外链网页对应的网站权重,将所获得的网站权重确定为各个外链网页的权重,并根据所确定的各个外链网页的参考分类和各个外链网页的权重,确定所述待分类网页的分类。5.根据权利要求1所述的方法,其特征在于,所述根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类的步骤,包括:按照所述分类方式,确定所述待分类网页的参考分类;根据所确定的各个外链网页的参考分类和所述待分类网页的参考分类,确定所述待分类网页的分类。6.根据权利要求5所述的方法,其特征在于,所述根据所确定的各个外链网页的参考分类和所述待分类网页的参考分类,确定所述待分类网页的分类的步骤,包括:确定所述分类字典中每一个分类在第二参考分类组中的第二出现次数,所述第二参考分类组包括各个外链网页的参考分类和所述待分类网页的参考分类,将第二出现次数值最大的分类确定为所述待分类网页的分类。7.一种网页分类的确...

【专利技术属性】
技术研发人员:张惊申卢俞虹任方英
申请(专利权)人:新华三信息安全技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1