网页分类字典生成方法及装置制造方法及图纸

技术编号:14113687 阅读:56 留言:0更新日期:2016-12-07 11:05
本发明专利技术实施例公开了一种网页分类字典生成方法及装置,方法包括:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,获取各个样本URL对应的样本网页内容;提取各个样本网页内容中的样本文本信息,对样本文本信息进行分词处理,从样本文本信息中得到对应的样本词语;从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与该样本词语对应的逆向词语频率值,其中,逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值,将样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。以生成准确度更高的网页分类字典。

【技术实现步骤摘要】

本专利技术涉及互联网搜索
,特别涉及一种网页分类字典生成方法及装置
技术介绍
互联网中的网站数目异常庞大,并且网站种类繁多,如新闻类的、体育类的和购物类的等等。面对各种各样的网站,企业或者各组织会希望内部工作人员只访问与工作相关的网站,如何对内部工作人员可访问的网站进行过滤是非常迫切和重要的一个需求。那么此时就需要对各网站进行分类,根据网站所属类别,对网站进行过滤,从而滤除不允许访问的网站。面对互联网中海量的网站,可以针对网站对应的URL(Uniform Resource Locator,统一资源定位符)进行分类,在对URL设置合理的分类时,一般采用自动化分类的方式,自动化分类的过程一般为:首先学习样本,根据学习结果(样本文件中样本词语的重要程度)生成网页分类字典,然后依靠网页分类字典对未知类型的URL(网页)进行分类识别。可见,自动化分类结果是否准确,很大程度上依赖于网页分类字典的准确性。现有技术中,评估样本文件中样本词语的重要程度时,仅考虑样本词语所在样本文件的文件数量,所确定的样本文件中样本词语的重要程度(即所对应的权重值)准确度不高,进而导致生成的网页分类字典准确度不高。
技术实现思路
本专利技术实施例公开了一种网页分类字典生成方法及装置,以生成准确度更高的网页分类字典。具体方案如下:一方面,本专利技术实施例提供了一种网页分类字典生成方法,所述方法包括:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息,并对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。另一方面,本专利技术实施例提供了一种网页分类字典生成装置,所述装置包括:第一确定模块、获取模块、提取模块、分词模块、第二确定模块和存储模块;所述第一确定模块:用于根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;所述获取模块:用于根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;所述提取模块:用于从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息;所述分词模块:用于对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;所述第二确定模块:用于从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;所述存储模块:用于将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。在本方案中,根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,并获取各个样本URL所对应的样本网页内容;提取各个样本网页内容中的样本文本信息,并对该文本信息进行分词处理,从样本文本信息中得到对应的样本词语;从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与该样本词语对应的逆向词语频率值,其中,逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值,可见,本方法中,确定每一样本词语的逆向词语频率值时,充分考虑了每一词语在所有文本信息中出现的次数,即充分考虑了词语与文本信息之间存在的关系,更好体现了词语的重要程度;将样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。以生成准确度更高的网页分类字典,进而在使用该网页分类字典时可以提高网页分类的准确度。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种网页分类字典生成方法的流程示意图;图2为本专利技术实施例提供的一种逆向词语频率值确定的流程示意图;图3为本专利技术实施例提供的一种网页分类字典生成装置的结构示意图;图4为本专利技术实施例提供的一种网页分类字典生成装置的另一结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种网页分类字典生成方法及装置,以生成准确度更高的网页分类字典。下面首先对本专利技术实施例所提供了一种网页分类字典生成方法进行介绍。如图1所示,本专利技术实施例所提供的一种网页分类字典生成方法,可以包括如下步骤:S101:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,该网页分类标准中包含网页分类类别;可以理解的是,根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本URL,其中,该预定的网页分类标准可以通过管理人员自主设置,该网页分类标准中包含网页分类类别,如:体育、购物、旅游和金融等等。同时,该预定的网页分类标准所包含的网页分类类别可以是一级分类(如上),也可以在一级分类中继续细分二级分类(如:一级分类中的金融可以继续细分为银行和证券等二级分类),继而细分三级分类(如一级分类中旅游可以继续细分为国内旅游和国外旅游等二级分类,其中,二级分类国内旅游可以继续细分为江浙旅游地区和东三省旅游地区等三级分类)。S102:根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;需要说明的是,访问所确定的各个样本URL所对应的网页,并且通过爬虫工具等获取各个样本URL所对应的样本网页内容,并针对所获得的各个样本网页内容,进行后续的网页分类字典生成流程。S103:从所获取的样本网页内容中,分别提取出该样本网页内容中的样本文本信息,并对该样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;可以理解的是,所获取的样本网页内容中既包含针对本专利技术实施例所提供的网页分类字典生成方法的有效信息,即样本文本信息,又包含固有的脚本信息以及代码等无用字符集,从所获取的样本网页内容中,分别提取出该样本网页内容中的样本文本信息,去除该固有的脚本信息以及代码等无用字符集。其中,可以采用现有的任一分词工具对所提取出的各个样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语。需要强调的是,在实际应用中,在获取各个样本URL所对应的样本网页内容时,不可避免的会出现时间差本文档来自技高网...
网页分类字典生成方法及装置

【技术保护点】
一种网页分类字典生成方法,其特征在于,所述方法包括:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息,并对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。

【技术特征摘要】
1.一种网页分类字典生成方法,其特征在于,所述方法包括:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息,并对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。2.根据权利要求1所述的方法,其特征在于,所述多个学习词语与逆向词语频率值的对应关系的建立过程为:获得任意选取的学习URL对应的学习网页内容;从所获得的学习网页内容中,分别提取出所述学习网页内容中的学习文本信息,并对所述学习文本信息进行分词处理,得到每一所提取出的学习文本信息对应的学习词语;根据每一学习词语在所有学习文本信息中出现的次数,确定每一学习词语的逆向词语频率值,并将所有学习词语以及所对应的逆向词语频率值进行对应存储。3.根据权利要求2所述的方法,其特征在于,所述确定每一学习词语的逆向词语频率值的计算公式为:Ti=1/Ni;其中,所述Ti表示学习词语i的逆向词语频率值,所述Ni表示学习词语i在所有学习文本信息中的出现次数。4.根据权利要求1-3所述的方法,其特征在于,所述对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语之后,所述方法还包括:从所述样本词语中,选择符合预设筛选规则的目标样本词语;所述从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,包括:从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述目标样本词语对应的逆向词语频率值;所述将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中,包括:将所述目标样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。5.根据权利要求1-3任一项所述的方法,其特征在于,还包括:接收用户反馈的词语匹配次数,其中,所述词语匹配次数为:使用所述网页分类字典对未知类型的网页分类时,所述网页分类字典中所存储的词语的匹配次数;根据所述词语匹配次数,计算所述网页分类词典中所存储的词语的匹配概率;从所述网页分类词典中删除所对应匹配概率低于预定阈值的词语。6.一种网页分类字典生成装置,其特征在于,所述装置包括:第一确定模块、获取模块、...

【专利技术属性】
技术研发人员:张惊申
申请(专利权)人:杭州华三通信技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1