【技术实现步骤摘要】
本专利技术涉及互联网搜索
,特别涉及一种网页分类字典生成方法及装置。
技术介绍
互联网中的网站数目异常庞大,并且网站种类繁多,如新闻类的、体育类的和购物类的等等。面对各种各样的网站,企业或者各组织会希望内部工作人员只访问与工作相关的网站,如何对内部工作人员可访问的网站进行过滤是非常迫切和重要的一个需求。那么此时就需要对各网站进行分类,根据网站所属类别,对网站进行过滤,从而滤除不允许访问的网站。面对互联网中海量的网站,可以针对网站对应的URL(Uniform Resource Locator,统一资源定位符)进行分类,在对URL设置合理的分类时,一般采用自动化分类的方式,自动化分类的过程一般为:首先学习样本,根据学习结果(样本文件中样本词语的重要程度)生成网页分类字典,然后依靠网页分类字典对未知类型的URL(网页)进行分类识别。可见,自动化分类结果是否准确,很大程度上依赖于网页分类字典的准确性。现有技术中,评估样本文件中样本词语的重要程度时,仅考虑样本词语所在样本文件的文件数量,所确定的样本文件中样本词语的重要程度(即所对应的权重值)准确度不高,进而导致生成的网页分类字典准确度不高。
技术实现思路
本专利技术实施例公开了一种网页分类字典生成方法及装置,以生成准确度更高的网页分类字典。具体方案如下:一方面,本专利技术实施例提供了一种网页分类字典生成方法,所述方法包括:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容 ...
【技术保护点】
一种网页分类字典生成方法,其特征在于,所述方法包括:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息,并对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。
【技术特征摘要】
1.一种网页分类字典生成方法,其特征在于,所述方法包括:根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息,并对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。2.根据权利要求1所述的方法,其特征在于,所述多个学习词语与逆向词语频率值的对应关系的建立过程为:获得任意选取的学习URL对应的学习网页内容;从所获得的学习网页内容中,分别提取出所述学习网页内容中的学习文本信息,并对所述学习文本信息进行分词处理,得到每一所提取出的学习文本信息对应的学习词语;根据每一学习词语在所有学习文本信息中出现的次数,确定每一学习词语的逆向词语频率值,并将所有学习词语以及所对应的逆向词语频率值进行对应存储。3.根据权利要求2所述的方法,其特征在于,所述确定每一学习词语的逆向词语频率值的计算公式为:Ti=1/Ni;其中,所述Ti表示学习词语i的逆向词语频率值,所述Ni表示学习词语i在所有学习文本信息中的出现次数。4.根据权利要求1-3所述的方法,其特征在于,所述对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语之后,所述方法还包括:从所述样本词语中,选择符合预设筛选规则的目标样本词语;所述从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,包括:从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述目标样本词语对应的逆向词语频率值;所述将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中,包括:将所述目标样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。5.根据权利要求1-3任一项所述的方法,其特征在于,还包括:接收用户反馈的词语匹配次数,其中,所述词语匹配次数为:使用所述网页分类字典对未知类型的网页分类时,所述网页分类字典中所存储的词语的匹配次数;根据所述词语匹配次数,计算所述网页分类词典中所存储的词语的匹配概率;从所述网页分类词典中删除所对应匹配概率低于预定阈值的词语。6.一种网页分类字典生成装置,其特征在于,所述装置包括:第一确定模块、获取模块、...
【专利技术属性】
技术研发人员:张惊申,
申请(专利权)人:杭州华三通信技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。