网页分类方法及装置制造方法及图纸

技术编号:33853705 阅读:15 留言:0更新日期:2022-06-18 10:40
本申请公开了一种网页分类方法及装置,用以解决现有的网页分类方法的准确率较低的问题。所述方法包括:确定目标网页对应的待分析对象;确定所述待分析对象的第一特征信息;所述第一特征信息包括所述待分析对象中包含的多个关键特征因子之间的关联关系特征;根据所述第一特征信息,确定所述目标网页的目标综合特征信息;将所述目标综合特征信息输入预先训练的网页分类模型,根据网页分类模型的输出数据确定所述目标网页的网页类型;所述网页分类模型基于多个样本网页的样本综合特征信息和样本网页类型训练得到。该技术方案能够避免网页分类时所依据的特征信息不全面时导致网页分类结果不准确的情况,提升了网页分类的准确性。性。性。

【技术实现步骤摘要】
网页分类方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种网页分类方法及装置。

技术介绍

[0002]随着互联网技术的高速发展,互联网上网页的数量在不断增加,数据资源也在不断丰富,为各种数据密集型的应用提供了潜在的数据来源。然而,过大的信息量给人们处理数据信息带来了很多困难,传统的人工处理信息的方式显然已无法满足大量数据处理的要求。因此,如何对海量网页进行自动分类,是计算机领域亟待研究和探索的问题之一。

技术实现思路

[0003]本申请实施例的目的是提供一种网页分类方法及装置,用以解决现有的网页分类方法的准确率较低的问题。
[0004]为解决上述技术问题,本申请实施例是这样实现的:
[0005]一方面,本申请实施例提供一种网页分类方法,包括:
[0006]确定目标网页对应的待分析对象,所述待分析对象包括网页链接和/或网页标题;
[0007]确定所述待分析对象的第一特征信息,所述第一特征信息包括所述待分析对象中包含的多个关键特征因子之间的关联关系特征;
[0008]根据所述第一特征信息,确定所述目标网页的目标综合特征信息,所述目标综合特征信息包括所述关联关系特征;
[0009]将所述目标综合特征信息输入预先训练的网页分类模型,根据所述网页分类模型的输出数据确定所述目标网页的网页类型,所述网页分类模型基于多个样本网页的样本综合特征信息和样本网页类型训练得到。
[0010]另一方面,本申请实施例提供一种网页分类装置,包括:
[0011]第一确定模块,用于确定目标网页对应的待分析对象,所述待分析对象包括网页链接和/或网页标题;
[0012]第二确定模块,用于确定所述待分析对象的第一特征信息,所述第一特征信息包括所述待分析对象中包含的多个关键特征因子之间的关联关系特征;
[0013]第三确定模块,用于根据所述第一特征信息,确定所述目标网页的目标综合特征信息,所述目标综合特征信息包括所述关联关系特征;
[0014]分类模块,用于将所述目标综合特征信息输入预先训练的网页分类模型,根据所述网页分类模型的输出数据确定所述目标网页的网页类型,所述网页分类模型基于多个样本网页的样本综合特征信息和样本网页类型训练得到。
[0015]再一方面,本申请实施例提供一种网页分类设备,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现:
[0016]确定目标网页对应的待分析对象,所述待分析对象包括网页链接和/或网页标题;
[0017]确定所述待分析对象的第一特征信息,所述第一特征信息包括所述待分析对象中包含的多个关键特征因子之间的关联关系特征;
[0018]根据所述第一特征信息,确定所述目标网页的目标综合特征信息,所述目标综合特征信息包括所述关联关系特征;
[0019]将所述目标综合特征信息输入预先训练的网页分类模型,根据所述网页分类模型的输出数据确定所述目标网页的网页类型,所述网页分类模型基于多个样本网页的样本综合特征信息和样本网页类型训练得到。
[0020]再一方面,本申请实施例提供一种存储介质,用于存储计算机程序,所述计算机程序在被处理器执行时以实现以下流程:
[0021]确定目标网页对应的待分析对象,所述待分析对象包括网页链接和/或网页标题;
[0022]确定所述待分析对象的第一特征信息,所述第一特征信息包括所述待分析对象中包含的多个关键特征因子之间的关联关系特征;
[0023]根据所述第一特征信息,确定所述目标网页的目标综合特征信息,所述目标综合特征信息包括所述关联关系特征;
[0024]将所述目标综合特征信息输入预先训练的网页分类模型,根据所述网页分类模型的输出数据确定所述目标网页的网页类型,所述网页分类模型基于多个样本网页的样本综合特征信息和样本网页类型训练得到。
[0025]采用本申请实施例的技术方案,首先确定目标网页对应的待分析对象(包括网页链接和/或网页标题),确定待分析对象的第一特征信息,该第一特征信息包括待分析对象中包含的多个关键特征因子之间的关联关系特征,进而根据第一特征信息确定目标网页的目标综合特征信息。可见,该技术方案通过依据网页链接和/或网页标题中包含的多个关键特征因子之间的关联关系特征确定目标网页的目标综合特征信息,使得目标综合特征信息并非是单一的、无关联的特征信息,从而使得目标网页的特征信息确定的更加准确、全面。进一步地,通过将目标综合特征信息输入预先训练的网页分类模型,根据网页分类模型的输出数据确定目标网页的网页类型,其中,网页分类模型基于多个样本网页的样本综合特征信息和样本网页类型训练得到,由于目标网页的目标综合特征信息能够全面、准确地表征目标网页的特征,因此能够避免网页分类时所依据的特征信息不全面时导致网页分类结果不准确的情况,大大提升了网页分类的准确性。
附图说明
[0026]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是根据本申请一实施例的一种网页分类方法的示意性流程图;
[0028]图2是根据本申请另一实施例的一种网页分类方法的示意性流程图;
[0029]图3是根据本申请一实施例的一种网页分类装置的示意性框图;
[0030]图4是根据本申请一实施例的一种网页分类设备的示意性框图。
具体实施方式
[0031]本申请实施例提供一种网页分类方法及装置,用以解决现有的网页分类方法的准确率较低的问题。
[0032]为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0033]在网页分类领域中,互联网上网页的数量不断增加,数据资源不断丰富,过大的信息量导致网页分类的准确度要求越来越高。因此,如何高准确地识别出各类网页的类型,是网页分类领域中亟待解决的问题之一。本申请提供的一种网页分类方法,通过提取网页链接和/或网页标题的特征信息,该特征信息包括网页链接和/或网页标题中关键特征因子之间的关联关系特征(比如位置关系)、关键特征因子的类别、在网页链接和/或网页标题中的位置、数目等等。进而,根据上述特征信息以及预先训练的网页分类模型确定出网页的网页类型,使得网页分类时所依据的特征信息更加全面、准确,确保网页分类的准确性。
[0034]本申请提供的网页分类方法,可适用于各种有网页分类需求的场景中,比如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页分类方法,其特征在于,包括:确定目标网页对应的待分析对象,所述待分析对象包括网页链接和/或网页标题;确定所述待分析对象的第一特征信息,所述第一特征信息包括所述待分析对象中包含的多个关键特征因子之间的关联关系特征;根据所述第一特征信息,确定所述目标网页的目标综合特征信息,所述目标综合特征信息包括所述关联关系特征;将所述目标综合特征信息输入预先训练的网页分类模型,根据所述网页分类模型的输出数据确定所述目标网页的网页类型,所述网页分类模型基于多个样本网页的样本综合特征信息和样本网页类型训练得到。2.根据权利要求1所述的方法,其特征在于,所述关联关系特征包括以下至少一项:多个所述关键特征因子的总长度;各所述关键特征因子之间的第一位置关系和/或第一排列方式;关键特征因子集的数目、长度和/或在所述待分析对象中的第一位置信息,所述关键特征因子集包括连续的多个所述关键特征因子;所述关键特征因子集中的各所述关键特征因子的类别、第二位置关系和/或第二排列方式,所述关键特征因子的类别包括字母、数字、字符和/或文字。3.根据权利要求2所述的方法,其特征在于,所述关联关系特征包括各所述关键特征因子之间的所述第一位置关系;所述确定所述待分析对象的第一特征信息,包括:分别确定每个所述关键特征因子在所述待分析对象中的第二位置信息;根据所述第二位置信息,确定各所述关键特征因子之间的所述第一位置关系,所述第一位置关系包括前后位置关系和/或位置间隔长度。4.根据权利要求1或2所述的方法,其特征在于,所述第一特征信息包括多个,所述根据所述第一特征信息,构建所述目标网页的目标综合特征信息,包括:将多个所述第一特征信息按照预设拼接方式进行拼接,得到所述目标网页的所述目标综合特征信息。5.根据权利要求1所述的方法,其特征在于,所述确定目标网页对应的待分析对象之前,还包括:获取多个所述样本网页,根据所述样本网页对应的所述样本网页类型为所述样本网页添加样本标签,并确定各所述样本网页分别对应的待分析样本对象;确定所述待分析样本对象的样本特征信息,所述样本特征信息包括所述待分析样本对象中包含的多个样本关键特征因子之间的关联关系特征;根据各所述样本网页分别对应的所述样本综合特征信息和所述样本标签进行模型训练,得到所述网页分类模型。6.根据权利要求5所述的方法,其特征在于,所述获取多个所述样本网页,包括:根据所述样本网页类型的数目和/或内容,获取与所述样本网页类型相匹配的所述样本网页;所述根据各所述样本网页分别对应的所述样本综合特征信息和所述样本标签进行模型训练,包括:根据所述样本网页类型的数目和/或内容,确定与所述样本网页相匹配的分类网络模
型;将各所述样本综...

【专利技术属性】
技术研发人员:罗奇帅王洪斌吴海英权佳成蒋宁
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1