【技术实现步骤摘要】
网页所属行业分类方法及装置
本专利技术涉及计算机
,具体涉及一种网页所属行业分类方法及装置。
技术介绍
随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于网页越来越多,用户越来越难以从繁多的网页中定位出自己所需的网页。为此需要对各种网页进行分类,以便于用户快速定位自己所需的网页。现有技术中,在对网页进行分类时,一般依据网页的HTML(HyperTextMarkupLanguage,超文本标记语言)标签,确定网页所属的分类。虽然HTML标签代表了网页的性质,但是由于HTML标签受人为因素影响较大,因此使得依据HTML标签得到的分类结果的准确性较低。为解决依据HTML标签分类不准确的问题,目前很多网页分类方法采用了比较流行的人工智能建模方法,然而这种人工智能建模方法,不但需要大量的人工标注数据,而且由于人工智能算法本身的复杂性,在模型训练和预测阶段对服务器的性能要求均较高,因此成本高昂,且整个过程实施部署繁琐,效率低下。
技术实现思路
针对上述存在的问题,本专利技术实施例提出一种网页所属行业分类方法及装置。具体地,本专利技术实施例提供了以下技术方案:第一方面,本专利技术实施例提供了一种网页所属行业分类方法,包括:获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对 ...
【技术保护点】
1.一种网页所属行业分类方法,其特征在于,包括:/n获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;/n将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;/n根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;/n根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。/n
【技术特征摘要】
1.一种网页所属行业分类方法,其特征在于,包括:
获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;
将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;
根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;
根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。
2.根据权利要求1所述的方法,其特征在于,所述待分类网页的网页特征信息包括待分类网页的网页地址,和/或,网页标题,和/或,网页内容;以及,
所述将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:
将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;其中,各行业的第一关键词集合中对应存储有相应行业的网页地址关键词;和/或,
将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;其中,各行业的第二关键词集合中对应存储有相应行业的网页标题关键词;和/或,
将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;其中,各行业的第三关键词集合中对应存储有相应行业的网页内容关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度,包括:
根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度。
4.根据权利要求2所述的网页所属行业分类方法,其特征在于,将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果,具体包括:
将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数以及第一权重,按照第一关系模型获取所述网页地址与所述各行业的第一匹配结果;
其中,所述第一权重为表征匹配得到的网页地址关键词重要性的权重;所述第一关系模型为e1=c1*q1;其中,e1表示所述网页地址与所述各行业的第一匹配结果,c1表示所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数,q1表示第一权重。
5.根据权利要求2所述的网页所属行业分类方法,其特征在于,将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果,具体包括:
将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,按照第二关系模型获取所述网页标题与所述各行业的第二匹配结果;
其中,所述第二权重为表征匹配得到的网页标题关键词重要性的权重;所述第二关系模型为e2=c2*l1*(q2-k1*(l1/b1))*(1/c01);其中,e2表示所述网页标题与所述各行业的第二匹配结果,c2表示所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数,l1表示所述网页标题的长度,q2表示第二权重,k1表示基于网页标题长度的预设权重比例调整系数,b1表示网页标题长度归一化系数,c01表示各行业的第二关键词集合中的关键词的总数。
6.根据权利要求2所述的网页所属行业分类方法,其特征在于,将所...
【专利技术属性】
技术研发人员:阮禄,禹庆华,李斌,李国辉,
申请(专利权)人:奇安信科技集团股份有限公司,网神信息技术北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。