一种网页分类方法及装置制造方法及图纸

技术编号:23149932 阅读:10 留言:0更新日期:2020-01-18 13:47
本申请实施例提供了一种网页分类方法及装置,涉及互联网技术领域,其中,上述方法包括:获得待分类网页的网页信息;在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。应用本申请实施例提供的方案,能够提高网页分类的准确性。

A web page classification method and device

【技术实现步骤摘要】
一种网页分类方法及装置
本申请涉及互联网
,特别是涉及一种网页分类方法及装置。
技术介绍
随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于各种网页越来越多,用户越来越难以从繁多的网页中定位出自己所需的网页。为此需要对各种网页进行分类,以便于用户快速定位自己所需的网页。现有技术中,对网页进行分类时,一般依据网页的HTML(HyperTextMarkupLanguage,超文本标记语言)标签,确定网页所属的分类。虽然HTML标签代表了网页的性质,但是由于HTML标签受人为因素影响较大,易导致网页分类准确性低。
技术实现思路
本申请实施例的目的在于提供一种网页分类方法及装置,以提高网页分类的准确性。具体技术方案如下:第一方面,本申请实施例提供了一种网页分类方法,所述方法包括:获得待分类网页的网页信息;在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。第二方面,本申请实施例提供了一种网页分类装置,所述装置包括:网页信息获得模块,用于获得待分类网页的网页信息;分词信息获得模块,用于在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;第一分类确定模块,用于根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。第三方面,本申请实施例提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现本申请实施例所述的方法步骤。第四方面,本申请实施例提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例所述的方法步骤。由以上可见,应用本申请实施例提供的方案进行网页分类时,在待分类网页的网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性,然后根据上述第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的第一种网页分类方法的流程示意图;图2为本申请实施例提供的第二种网页分类方法的流程示意图;图3为本申请实施例提供的一种网页分类模型的结构示意图;图4为本申请实施例提供的第三种网页分类方法的流程示意图;图5为本申请实施例提供的第一种网页分类装置的结构示意图;图6为本申请实施例提供的第二种网页分类装置的结构示意图;图7为本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。由于现有技术中存在网页分类准确性低这一技术问题,为解决这一技术问题,本申请实施例提供了一种网页分类方法及装置。本申请的一个实施例中,提供了一种网页分类方法,该方法包括:获得待分类网页的网页信息;在上述网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性;根据第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。应用本实施例提供的方案进行网页分类时,由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。下面通过具体实施例对本申请实施例提供的网页分类方法及装置分别进行详细说明。参见图1,提供了第一种网页分类方法的流程示意图,该方法包括下述S101-S103。S101:获得待分类网页的网页信息。上述网页信息可以是网页的HTML数据。其中,上述HTML数据是由HTML元数据组成的描述性文本。HTML元数据可以包括说明性文字、图形、动画、声音、表格、链接等。例如,上述说明性文字可以包括页面标题、页面描述等。具体的,可以先获得待分类网页的URL(UniformResourceLocator,统一资源定位符),然后根据待分类网页的URL获得待分类网页的HTML数据,从而也就获得了待分类网页的网页信息。S102:在上述网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性。其中,上述页面标题是指网页的Title,上述页面描述是指网页的Description。上述页面标题和页面描述可以形成一个句子。在此基础上,对页面标题和页面描述进行分词处理时,可以是对上述句子进行分词处理。例如,页面标题为“美食天下”,页面描述为“美食天下是最大的中文美食网站与厨艺交流社区,拥有海量的优质原创美食菜谱,聚集超千万美食家。我所有的朋友都是吃货,欢迎您加入!”,则页面标题和页面描述形成的一个句子为“美食天下美食天下是最大的中文美食网站与厨艺交流社区,拥有海量的优质原创美食菜谱,聚集超千万美食家。我所有的朋友都是吃货,欢迎您加入!”,然后对上述形成的一个句子进行分词处理。当然,也可以是对上述页面标题和页面描述分别进行分词处理。对上述页面标题和页面描述进行分词处理可以得到页面标题和页面描述中包含的各个词,从而得到第一分词结果。具体的,进行分词处理得到的各个词可以是中文中的单字词、多字词,也可以是英文、法文、日文、德文等语言中的词等,本申请实施例并不对此进行限定。另外,可以采用现有技术中任何分词方式实现上述分词处理,这里不再详述。对于一个词而言,其词性可能是名词、形容词、动词等。本申请的一个实施例中,可以采用NLPIR(中科院分词系统)这一分词系统对上述页面标题和页面描述进行分析处理,这样不仅能够得到上述第一分词结果,还能够一并获得第一分词结果中各个词的词性。本申请的一个实施例中,在对页面标题和页面描述进行分词处理,得到页面标题和页面描本文档来自技高网...

【技术保护点】
1.一种网页分类方法,其特征在于,所述方法包括:/n获得待分类网页的网页信息;/n在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;/n根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。/n

【技术特征摘要】
1.一种网页分类方法,其特征在于,所述方法包括:
获得待分类网页的网页信息;
在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。


2.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类,包括:
获得所述第一分词结果中各个词的第一词向量和各个词的词性的第二词向量;
针对所述第一分词结果中的每一词,获得由所述第一词向量和第二词向量生成的第三词向量;
提取所述第三词向量的特征;
选择所提取特征中对所述第三词向量具有表征性的特征;
根据所选择的特征,确定所述待分类网页所属的分类。


3.根据权利要求2所述的方法,其特征在于,所述提取所述第三词向量的特征,包括:
按照所述第一分词结果中各个词在包含所述页面标题和页面描述的句子中的排列顺序,对所述第一分词结果中各个词对应的所述第三词向量排序;
提取排序后所述第三词向量的特征。


4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
在所述网页信息中不包含所述页面标题和页面描述的情况下,获得所述待分类网页的域名;
根据所述域名对应的分类,确定所述待分类网页所属的分类。


5.一种网页分类装置,其特征在于,所述装置包括:
网页信息获得模块,用于获得待分类网页的网页信息;
分词信息获得模块,用于在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第...

【专利技术属性】
技术研发人员:施瑞瑞
申请(专利权)人:新华三信息安全技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1