一种网页分类方法及装置制造方法及图纸

技术编号:23149932 阅读:21 留言:0更新日期:2020-01-18 13:47
本申请实施例提供了一种网页分类方法及装置,涉及互联网技术领域,其中,上述方法包括:获得待分类网页的网页信息;在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。应用本申请实施例提供的方案,能够提高网页分类的准确性。

A web page classification method and device

【技术实现步骤摘要】
一种网页分类方法及装置
本申请涉及互联网
,特别是涉及一种网页分类方法及装置。
技术介绍
随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于各种网页越来越多,用户越来越难以从繁多的网页中定位出自己所需的网页。为此需要对各种网页进行分类,以便于用户快速定位自己所需的网页。现有技术中,对网页进行分类时,一般依据网页的HTML(HyperTextMarkupLanguage,超文本标记语言)标签,确定网页所属的分类。虽然HTML标签代表了网页的性质,但是由于HTML标签受人为因素影响较大,易导致网页分类准确性低。
技术实现思路
本申请实施例的目的在于提供一种网页分类方法及装置,以提高网页分类的准确性。具体技术方案如下:第一方面,本申请实施例提供了一种网页分类方法,所述方法包括:获得待分类网页的网页信息;在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;>根据所述第一分词结本文档来自技高网...

【技术保护点】
1.一种网页分类方法,其特征在于,所述方法包括:/n获得待分类网页的网页信息;/n在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;/n根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。/n

【技术特征摘要】
1.一种网页分类方法,其特征在于,所述方法包括:
获得待分类网页的网页信息;
在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。


2.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类,包括:
获得所述第一分词结果中各个词的第一词向量和各个词的词性的第二词向量;
针对所述第一分词结果中的每一词,获得由所述第一词向量和第二词向量生成的第三词向量;
提取所述第三词向量的特征;
选择所提取特征中对所述第三词向量具有表征性的特征;
根据所选择的特征,确定所述待分类网页所属的分类。


3.根据权利要求2所述的方法,其特征在于,所述提取所述第三词向量的特征,包括:
按照所述第一分词结果中各个词在包含所述页面标题和页面描述的句子中的排列顺序,对所述第一分词结果中各个词对应的所述第三词向量排序;
提取排序后所述第三词向量的特征。


4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
在所述网页信息中不包含所述页面标题和页面描述的情况下,获得所述待分类网页的域名;
根据所述域名对应的分类,确定所述待分类网页所属的分类。


5.一种网页分类装置,其特征在于,所述装置包括:
网页信息获得模块,用于获得待分类网页的网页信息;
分词信息获得模块,用于在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第...

【专利技术属性】
技术研发人员:施瑞瑞
申请(专利权)人:新华三信息安全技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1