网站所属行业的分类方法和服务器技术

技术编号:11677593 阅读:64 留言:0更新日期:2015-07-06 04:25
本发明专利技术提供一种网站所属行业的分类方法和服务器,方法包括:服务器获取待分类网站的网页内容信息;服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;服务器根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。本发明专利技术实施例有效解决现有技术中,采用人工方式判断各网站所属的行业类型需耗费大量人力且执行效率低的技术问题。

【技术实现步骤摘要】

本专利技术涉及信息技术,尤其涉及一种网站所属行业的分类方法和服务器
技术介绍
随着互联网技术的发展,国内网站的数量迅猛增加。这些网站为网民提供各种各样的服务,涉及行业也是五花八门,如:用于为企业拓展业务的各种企业网站,还有为网民提供网上政务或信息查询的政府类网站等。如果能够将上述国内的网站具体所属的行业区分出来,就可以根据具体行业信息,找到该行业类别下类似的网站,这对于网站信息分类和搜索引擎提升搜索结果都有很大作用。现有技术中,采用人工方式判断各网站所属的行业类型,该方法不但耗费大量人力,而且执行效率低。
技术实现思路
本专利技术提供一种网站所属行业的分类方法和服务器,用于解决现有技术中,采用人工方式判断各网站所属的行业类型需耗费大量人力且执行效率低的技术问题。一方面,本专利技术实施例提供一种网站所属行业的分类方法,包括:服务器获取待分类网站的网页内容信息;所述服务器对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;所述服务器将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;所述服务器根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。另一方面,本专利技术实施例提供一种服务器,包括:获取模块,用于获取待分类网站的网页内容信息;分词模块,用于对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;匹配模块,用于将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;确定模块,用于根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。本专利技术提供的网站所属行业的分类方法和服务器,服务器获取待分类网站的网页内容信息;服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;服务器根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。该方案在判断各网站所属的行业类型时无需耗费大量人力且提高了执行效率。【附图说明】图1为本专利技术提供的网站所属行业的分类方法一个实施例的流程图;图2为本专利技术提供的根据网站域名的后缀信息判断网站所属行业的分类方法一个实施例的流程图;图3为本专利技术提供的根据网站的注册单位信息判断网站所属行业的分类方法一个实施例的流程图;图4为本专利技术提供的根据网站名称信息判断网站所属行业的分类方法一个实施例的流程图;图5为本专利技术提供的根据网站的首页面的描述信息判断网站所属行业的分类方法一个实施例的流程图;图6为本专利技术提供的服务器一个实施例的结构示意图。【具体实施方式】图1为本专利技术提供的网站所属行业的分类方法一个实施例的流程图。该方法的以下步骤的执行主体可以为具有获取网站相关信息的服务器。如图1所示,该网站所属行业的分类方法具体包括:S101,服务器获取待分类网站的网页内容信息;服务器通过现有的网络信息抓取工具,如“网络爬虫”来抓取待分类网站信息的程序或脚本,从而获得待分类网站的网页内容信息;该网页内容信息包括该网站包含的所有网页页面中涉及的内容信息,包括文字,图片等。S102,服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器获取到待分类网站的网页内容信息后,将该网页内容信息中包含的所有文字信息通过分词工具进行分词处理,从而生成每个待分类网站的网页内容信息对应的一个实词集合。该实词集合中包含了用于描述该待分类网站的网页内容信息的所有实词。S103,服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在网页内容信息对应的实词集合中出现的次数;其中,上述各行业类别对应的关键词为服务器预先对大量已进行行业分类的网站的网页内容信息进行实词统计后提取获得的。每个行业类别都对应着一定数量的关键词。这些关键词可以在很大概率上确定包含这些关键词的网站所属的行业类别为该关键词对应的行业类别。例如,本实施例所述服务器预先将网络中的网站划分为包括:工农贸易、电子服务、文化体育、新闻广告传媒、电子商务、机械设备和IT服务等多个行业类别。以IT服务行业为例,该行业类别对应关键词可包括:服务器租用、服务器托管、智能带宽出租、双线服务器、机柜出租、虚拟主机服务、虚拟主机等。服务器将上述待分类网站的网页内容信息对应的实词集合中包含的所有实词与上述预设的各行业类别对应的关键词进行匹配;确定每个行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数。例如,服务器对网站abc.com的网页内容信息中包含的所有文字信息进行分词处理生成对应的实词集合后,通过将实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配,发现IT服务行业对应的关键词:服务器租用、服务器托管、智能带宽出租、分别出现1、2、3次,则确定IT服务行业对应的关键词在网站abc.com的网页内容信息对应的实词集合中出现了 6次。S104,服务器根据各行业类别对应的关键词在网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别;服务器通过统计各个行业类别对应的上述关键词在当前待分类网站的网页内容信息对应的实词集合中出现的次数,确定这些行业类别对应的关键词之间的在该实词集合中出现的次数比例,并根据次数比例的大小情况确定待分类网站最终属于哪个行业类别。通常认为关键词出现次数比例越大的行业类别越接近于待分类网站的实际类别。本实施例中服务器采用的具体方式即为将各行业类别对应的关键词在网页内容信息对应的实词集合中出现次数最多的行业,确定为待分类网站所属的行业类别。在实际分类中,也可能出现部分行业类别对应的关键词在该网页内容信息对应的实词集合中出现次数较其他行业类别很多,但彼此之间对应的次数比较均等的情况。例如,次数占所有行业类别对应的关键词在该网页内容信息对应的实词集合中出现的总次数的40%和36%的两个行业类别包含的关键词已占据了所有关键词次数的76%。本方案中对于这种情况,可将这两种行业类别都确定为当前待分类网站的行业类别。本专利技术提供的网站所属行业的分类方法,服务器获取待分类网站的网页内容信息;服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;服务器根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。该方案在判断各网站所属的行业类型时无需耗费大量人力且提高了执行效率。本本文档来自技高网...

【技术保护点】
一种网站所属行业的分类方法,其特征在于,包括:服务器获取待分类网站的网页内容信息;所述服务器对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;所述服务器将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;所述服务器根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:高宁杨莹
申请(专利权)人:北龙中网北京科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1