网页所属行业分类方法及装置制造方法及图纸

技术编号:24799853 阅读:17 留言:0更新日期:2020-07-07 21:06
本发明专利技术实施例公开了一种网页所属行业分类方法及装置,方法包括:获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。本发明专利技术实施例能够简单高效地实现网页的准确分类。

【技术实现步骤摘要】
网页所属行业分类方法及装置
本专利技术涉及计算机
,具体涉及一种网页所属行业分类方法及装置。
技术介绍
随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于网页越来越多,用户越来越难以从繁多的网页中定位出自己所需的网页。为此需要对各种网页进行分类,以便于用户快速定位自己所需的网页。现有技术中,在对网页进行分类时,一般依据网页的HTML(HyperTextMarkupLanguage,超文本标记语言)标签,确定网页所属的分类。虽然HTML标签代表了网页的性质,但是由于HTML标签受人为因素影响较大,因此使得依据HTML标签得到的分类结果的准确性较低。为解决依据HTML标签分类不准确的问题,目前很多网页分类方法采用了比较流行的人工智能建模方法,然而这种人工智能建模方法,不但需要大量的人工标注数据,而且由于人工智能算法本身的复杂性,在模型训练和预测阶段对服务器的性能要求均较高,因此成本高昂,且整个过程实施部署繁琐,效率低下。
技术实现思路
针对上述存在的问题,本专利技术实施例提出一种网页所属行业分类方法及装置。具体地,本专利技术实施例提供了以下技术方案:第一方面,本专利技术实施例提供了一种网页所属行业分类方法,包括:获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。进一步地,所述待分类网页的网页特征信息包括待分类网页的网页地址,和/或,网页标题,和/或,网页内容;以及,所述将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;其中,各行业的第一关键词集合中对应存储有相应行业的网页地址关键词;和/或,将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;其中,各行业的第二关键词集合中对应存储有相应行业的网页标题关键词;和/或,将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;其中,各行业的第三关键词集合中对应存储有相应行业的网页内容关键词。进一步地,所述根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度,包括:根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度。进一步地,将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果,具体包括:将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数以及第一权重,按照第一关系模型获取所述网页地址与所述各行业的第一匹配结果;其中,所述第一权重为表征匹配得到的网页地址关键词重要性的权重;所述第一关系模型为e1=c1*q1;其中,e1表示所述网页地址与所述各行业的第一匹配结果,c1表示所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数,q1表示第一权重。进一步地,将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果,具体包括:将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,按照第二关系模型获取所述网页标题与所述各行业的第二匹配结果;其中,所述第二权重为表征匹配得到的网页标题关键词重要性的权重;所述第二关系模型为e2=c2*l1*(q2-k1*(l1/b1))*(1/c01);其中,e2表示所述网页标题与所述各行业的第二匹配结果,c2表示所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数,l1表示所述网页标题的长度,q2表示第二权重,k1表示基于网页标题长度的预设权重比例调整系数,b1表示网页标题长度归一化系数,c01表示各行业的第二关键词集合中的关键词的总数。进一步地,将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果,具体包括:将所述网页内容与各行业的第三关键词集合进行匹配,根据所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数以及第三权重,按照第三关系模型获取所述网页内容与所述各行业的第三匹配结果;其中,所述第三权重为表征匹配得到的网页内容关键词重要性的权重;所述第三关系模型为e3=c3*l2*(q3-k2*(l2/b2))*(1/c02);其中,e3表示所述网页内容与所述各行业的第三匹配结果,c3表示所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数,l2表示所述网页内容的长度,q3表示第三权重,k2表示基于网页内容长度的预设权重比例调整系数,b2表示网页内容长度归一化系数,c02表示各行业的第三关键词集合中的关键词的总数。进一步地,根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度,具体包括:将所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,按照各行业分别进行累加求和,得到所述待分类网页与各行业的匹配度。进一步地,根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果,具体包括:根据所述待分类网页与各行业的匹配度,获取所述待分类网页与各行业的匹配度的总和;根据所述总和确定匹配度的平均值,并将所述平均值的两倍作为筛选阈值;根据所述待分类网页与各行业的匹配度,将匹配度大于所述筛选阈值的行业作为所述待分类网页的行业分类结果;其中,当匹配度大于所述筛选阈值的行业存在两种或两种以上时,将所述两种或两种以上的行业按照匹配度的大小从大到小顺序排列,若每两个相邻的行业之间的匹配度差值均小于或等于所述筛选阈值,则将所有匹配度大于所述筛选阈值的行业均作为所述待分类网页的行业分类结果;若出现两个相邻的行业之间的匹配度差值大于所述筛选阈值,则将两个相邻的行业中匹配度较小的行业去除,并将剩余的匹配度大于所述筛选阈值的行业作为所述待分类网页的本文档来自技高网...

【技术保护点】
1.一种网页所属行业分类方法,其特征在于,包括:/n获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;/n将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;/n根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;/n根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。/n

【技术特征摘要】
1.一种网页所属行业分类方法,其特征在于,包括:
获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;
将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;
根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;
根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。


2.根据权利要求1所述的方法,其特征在于,所述待分类网页的网页特征信息包括待分类网页的网页地址,和/或,网页标题,和/或,网页内容;以及,
所述将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:
将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;其中,各行业的第一关键词集合中对应存储有相应行业的网页地址关键词;和/或,
将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;其中,各行业的第二关键词集合中对应存储有相应行业的网页标题关键词;和/或,
将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;其中,各行业的第三关键词集合中对应存储有相应行业的网页内容关键词。


3.根据权利要求2所述的方法,其特征在于,所述根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度,包括:
根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度。


4.根据权利要求2所述的网页所属行业分类方法,其特征在于,将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果,具体包括:
将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数以及第一权重,按照第一关系模型获取所述网页地址与所述各行业的第一匹配结果;
其中,所述第一权重为表征匹配得到的网页地址关键词重要性的权重;所述第一关系模型为e1=c1*q1;其中,e1表示所述网页地址与所述各行业的第一匹配结果,c1表示所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数,q1表示第一权重。


5.根据权利要求2所述的网页所属行业分类方法,其特征在于,将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果,具体包括:
将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,按照第二关系模型获取所述网页标题与所述各行业的第二匹配结果;
其中,所述第二权重为表征匹配得到的网页标题关键词重要性的权重;所述第二关系模型为e2=c2*l1*(q2-k1*(l1/b1))*(1/c01);其中,e2表示所述网页标题与所述各行业的第二匹配结果,c2表示所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数,l1表示所述网页标题的长度,q2表示第二权重,k1表示基于网页标题长度的预设权重比例调整系数,b1表示网页标题长度归一化系数,c01表示各行业的第二关键词集合中的关键词的总数。


6.根据权利要求2所述的网页所属行业分类方法,其特征在于,将所...

【专利技术属性】
技术研发人员:阮禄禹庆华李斌李国辉
申请(专利权)人:奇安信科技集团股份有限公司网神信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1