一种网站分类方法及装置制造方法及图纸

技术编号:14245959 阅读:42 留言:0更新日期:2016-12-22 02:04
本发明专利技术实施例公开了一种网站分类方法及装置,该方法包括:获取待分类网站的第一标签信息和第一网页内容,所述第一标签信息为所述第一网页内容的一部分;根据预设的标签分类字典,确定所述第一标签信息对应的网站类别,其中,所述标签分类字典包括:标签信息与网站类别的对应关系;根据所确定的网站类别对应的网站分类字典及所述第一网页内容,确定所述待分类网站的网站类别。应用本发明专利技术实施例提供的技术方案,提高了网站分类的效率。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别涉及一种网站分类方法及装置
技术介绍
互联网中的网站数目异常庞大,这其中包括各种各样的网站,如:新闻类的网站,体育类的网站,购物类的网站等等。面对各种各样的网站,企业或组织常常需要对网站进行过滤,禁止内部人员访问指定类别的网站。这里,确定一个网站是否需要过滤掉,首先需要对网站进行分类。目前,网站分类的过程一般为:确定待访问网站网页中的内容,将确定的内容与预设的所有网站分类字典中的词语进行匹配,这里,每一类网站对应一个网站分类字典,网站分类字典中包括:词语和权重值的对应关系;根据匹配到权重值确定待访问网站类别。在确定网站类别时,与所有网站分类字典中的所有词语进行匹配,将使得网站分类的效率比较低。
技术实现思路
本专利技术实施例公开了一种网站分类方法及装置,提高网站分类的效率。为达到上述目的,本专利技术实施例公开了一种网站分类方法,所述方法包括:获取待分类网站的第一标签信息和第一网页内容,其中,所述第一标签信息为所述第一网页内容的一部分;根据预设的标签分类字典,确定所述第一标签信息对应的网站类别,其中,所述标签分类字典包括:标签信息与网站类别的对应关系;根据所确定的网站类别对应的网站分类字典及所述第一网页内容,确定所述待分类网站的网站类别。为达到上述目的,本专利技术实施例还公开了一种网站分类装置,所述装置包括:第一获取单元,用于获取待分类网站的第一标签信息和第一网页内容,其中,所述第一标签信息为所述第一网页内容的一部分;第一确定单元,用于根据预设的标签分类字典,确定所述第一标签信息对应的网站类别,其中,所述标签分类字典包括:标签信息与网站类别的对应关系;第二确定单元,用于根据所确定的网站类别对应的网站分类字典及所述第一网页内容,确定所述待分类网站的网站类别。本专利技术实施例提供了一种网站分类方法及装置,获取待分类网站的第一标签信息和第一网页内容,这里,第一标签信息较少,第一网页内容较多,先根据第一标签信息和预设的标签分类字典,从所有的网站类别中筛选出可能为待分类网站的网站类别,再根据第一网页内容和所确定的网站类别对应的网站分类字典,确定待分类网站的网站类别,有效提高了网站分类的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种网站分类方法的流程示意图;图2为本专利技术实施例提供的网站分类方法中分类字典的构建流程示意图;图3为本专利技术实施例提供的一种网站分类装置的结构示意图;图4为本专利技术实施例提供的网站分类装置中使用的分类字典的构建装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面通过具体实施例,对本专利技术进行详细说明。参考图1,图1为本专利技术实施例提供的一种网站分类方法的流程示意图,该方法包括:S101:获取待分类网站的第一标签信息和第一网页内容;这里,待分类网站可以为用户需要去访问的网站,也可以为用户预先设定的一个网站。第一标签信息为第一网页内容的一部分,可以为该第一网页内容的title信息,如“天猫超市”、“百度贴吧”等;也可以为该第一网页内容中的分栏标题,如“百度贴吧”中的“娱乐明星”、“看电影”和“小说”等分栏标题。需要说明的是,本实施例不对第一标签信息进行限定,能够代表网站特点的内容,均可作为第一标签信息。在本专利技术的一个实施例中,可以首先获取待分类网站的URL(Uniform Resource Locator,统一资源定位符),采用网络爬虫工具访问该URL,从该网站反馈的内容中提取出该网站的标签信息和网页内容。S102:根据预设的标签分类字典,确定第一标签信息对应的网站类别;其中,标签分类字典包括:标签信息与网站类别的对应关系。标签信息中包含的词语较少,匹配第一标签信息和标签分类字典,能够快速地确定出第一标签信息对应的网站类别。在本专利技术的一个实施例中,标签分类字典中的标签信息可以为标签词语。此时,若匹配第一标签信息和标签分类字典,可能会发生误匹配,如:标签信息为“北京最大学术研究中心”,该标签信息中,“大”和“学”两个字相邻,其可以被“大学”这一标签词语匹配到,但实际中,“大”和“学”两个字属于不同的词语,分别为“最大”和“学术”,此时,该标签信息若被“大学”这个标签词语匹配到,则就会发生误匹配的问题。为了避免误匹配的问题,可以对第一标签信息进行分词,获得至少一个第一标签词语,如:将上述标签信息“北京最大学术研究中心”进行分词,获得标签词语:“北京”、“最大”、“学术”、“研究”和“中心”,此时,该标签信息就可以避免被“大学”这个标签词语匹配到,有效地避免了误匹配的问题。在获得至少一个第一标签词语后,就可以确定每个第一标签词语对应的网站类别,进而确定第一标签信息对应的网站类别。具体地,可以为:将每个第一标签词语和标签分类字典中的标签词语进行匹配,匹配到的每一标签词语对应的网站类别汇聚在一起,获得第一标签信息对应的初始分类集;移除该初始分类集中重复的网站类别,将移除重复网站类别后的初始分类集中的网站类别确定第一标签信息对应的网站类别。在一个实施例中,第一标签信息对应的网站类别可以集合在一起,作为待分类网站的疑似分类集。假设,获取的待分类网站的第一标签信息为:“迪卡侬运动超市|专业体育用品商店专卖”,对该第一标签信息进行分词,获得7个第一标签词语:“迪卡侬”“运动”“超市”“专业”“体育用品”“商店”和“专卖”,将每个第一标签词语和标签分类字典中的标签词语进行匹配,可以确定:“运动”对应的网站类别为:“体育”;“超市”对应的网站类别为:“购物”和“商业”;“商店”对应的网站类别为:“购物”和“商业”;其他4个词语不属于任何一个网站分类。此时,可以确定第一标签信息对应的初始分类集为:{“体育”,“购物”,“商业”,“购物”,“商业”本文档来自技高网...
一种网站分类方法及装置

【技术保护点】
一种网站分类方法,其特征在于,所述方法包括:获取待分类网站的第一标签信息和第一网页内容,其中,所述第一标签信息为所述第一网页内容的一部分;根据预设的标签分类字典,确定所述第一标签信息对应的网站类别,其中,所述标签分类字典包括:标签信息与网站类别的对应关系;根据所确定的网站类别对应的网站分类字典及所述第一网页内容,确定所述待分类网站的网站类别。

【技术特征摘要】
1.一种网站分类方法,其特征在于,所述方法包括:获取待分类网站的第一标签信息和第一网页内容,其中,所述第一标签信息为所述第一网页内容的一部分;根据预设的标签分类字典,确定所述第一标签信息对应的网站类别,其中,所述标签分类字典包括:标签信息与网站类别的对应关系;根据所确定的网站类别对应的网站分类字典及所述第一网页内容,确定所述待分类网站的网站类别。2.根据权利要求1所述的方法,其特征在于,所述获取待分类网站的第一标签信息和第一网页内容,包括:获取待分类网站的统一资源定位符URL;访问所述URL,获取所述待分类网站的第一标签信息和第一网页内容。3.根据权利要求1所述的方法,其特征在于,所述标签分类字典中的标签信息为标签词语;所述根据预设的标签分类字典,确定所述第一标签信息对应的网站类别,包括:对所述第一标签信息进行分词,获得至少一个第一标签词语;根据预设的标签分类字典,确定每个第一标签词语对应的网站类别;将每个第一标签词语对应的网站类型确定为所述第一标签信息对应的网站类别。4.根据权利要求1所述的方法,其特征在于,每一网站类别的网站分类字典中包括该网站类别的有效词语和每个有效词语的权重值;所述根据所确定的网站类别对应的网站分类字典及所述第一网页内容,确定所述待分类网站的网站类别,包括:对所述第一网页内容的文本信息进行分词,获得至少一个第一有效词语;根据所确定的网站类别对应的网站分类字典及每个第一有效词语,获得针对每一网站类别的每个第一有效词语的第一权重值;确定第一权重值之和最大的网站类别为所述待分类网站的网站类别。5.根据权利要求1所述的方法,其特征在于,所述标签分类字典中的标签信息为标签词语;所述获取待分类网站的第一标签信息和第一网页内容之前,所述方法还包括:配置N个初始网站类别,其中,所述N为正整数;获取每个初始网站类别对应的至少一个样本网站的第二标签信息和第二网页内容;对于每个初始网站类别,从对应的每个样本网站的第二标签信息中提取第二标签词语,将所述第二标签词语与该初始网站类别对应存储至所述标签分类字典;对于每个初始网站类别,对对应的每个样本网站的第二网页内容的文本信息进行分词,移除无效词语,获得至少一个第二有效词语,并为每个第二有效词语配置第二权重值;将每个第二有效词语和第二权重值对应存储至该初始网站类别的网站分类字典。6.根据权利要求1所述的方法,其特征在于,若所确定的网站类别为空,所述方法还包括:根据所有网站分类字典及所述第一网页内容,确定所述待分类网站的网站类别。7.一种网站分类装...

【专利技术属性】
技术研发人员:张惊申任方英
申请(专利权)人:杭州华三通信技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1