网页分类方法、网页分类模型的训练方法及装置制造方法及图纸

技术编号:32667374 阅读:16 留言:0更新日期:2022-03-17 11:20
本公开提供了一种网页分类方法、装置、电子设备以及存储介质,涉及数据处理技术领域,尤其涉及人工智能领域和智能推荐领域。具体实现方案为:分别对待分类网页的统一资源定位系统(URL)和URL对应的超文本标记语言(HTML)进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;基于所述目标特征向量,确定所述待分类网页的类型。页的类型。页的类型。

【技术实现步骤摘要】
网页分类方法、网页分类模型的训练方法及装置


[0001]本公开涉及数据处理
,尤其涉及人工智能领域和智能推荐领域的网页分类方法、网页分类模型的训练方法及装置。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理和决策的功能。
[0003]网页分类是人工智能领域的重要应用之一,能够在信息过载的环境中对网页进行分类。

技术实现思路

[0004]本公开提供了一种网页分类方法、装置、电子设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种网页分类方法,包括:
[0006]分别对待分类网页的统一资源定位系统(Uniform Resource Locator,URL)和URL对应的超文本标记语言(Hyper Text Markup Language,HTML)进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;
[0007]对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;
[0008]基于所述目标特征向量,确定所述待分类网页的类型;
[0009]其中,所述第一特征向量包括所述待分类网页的URL对应的特征向量;所述第二特征向量包括所述待分类网页的HTML对应的特征向量。
[0010]根据本公开的第二方面,提供了一种网页分类模型的训练方法,所述网络分类子模型包括分类子模型和分词子模型,所述方法包括:
[0011]分别对第一样本集包括的统一资源定位系统URL样本子集和URL样本子集对应的超文本标记语言HTML样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量;
[0012]基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量;
[0013]将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型;
[0014]匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。
[0015]根据本公开的第三方面,提供了一种网页分类装置,包括:
[0016]第一提取单元,用于分别对待分类网页的URL和URL对应的HTML进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;
[0017]第一预处理单元,用于对所述第一特征向量和所述第二特征向量进行预处理,得
到目标特征向量;
[0018]第一确定单元,用于基于所述目标特征向量,确定所述待分类网页的类型;
[0019]其中,所述第一特征向量包括所述待分类网页的URL对应的特征向量;所述第二特征向量包括所述待分类网页的HTML对应的特征向量。
[0020]根据本公开的第四方面,提供了一种网页分类模型的训练装置,包括:
[0021]第二提取单元,用于分别对第一样本集包括的统一资源定位系统URL样本子集和URL样本子集对应的超文本标记语言HTML样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量;
[0022]第二预处理单元,用于基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量;
[0023]第二确定单元,用于将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型;
[0024]匹配单元,用于匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。
[0025]本公开第五方面提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的网页分类方法或网页分类模型的训练方法。
[0026]本公开第六方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述所述的网页分类方法或网页分类模型的训练方法。
[0027]本公开第七方面提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现上述所述的网页分类方法或网页分类模型的训练方法。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1是本公开实施例提供的网页分类系统的一种架构示意图;
[0031]图2是本公开实施例提供的网页分类方法的一种可选流程示意图;
[0032]图3是本公开实施例提供的网页分类方法的另一种可选流程示意图;
[0033]图4是本公开实施例提供的获取第一训练样本集的可选示意图;
[0034]图5是本公开实施例提供的对拼接的特征进行预处理的可选示意图;
[0035]图6是本公开实施例提供的网页分类方法的又一种可选流程示意图;
[0036]图7是本公开实施例提供的网页分类模型的训练方法的一种可选流程示意图;
[0037]图8是本公开实施例提供的网页分类装置的一种可选结构示意图;
[0038]图9是本公开实施例提供的网页分类模型的训练装置的可选结构示意图;
[0039]图10是可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0040]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0041]相关技术中,电子设备可以采用如下两种方法对电子设备访问的网页进行分类:
[0042]1)通过下发关键词列表,将关键词列表中的关键字与电子设备访问的网页的标题相匹配,根据匹配的结果,确定电子设备访问的网页的类型;
[0043]2)通过向电子设备下发主机(host)列表,通过将host列表中的域名与电子设备访问的网页中url的域名相匹配的方式,确定电子设备访问的网页的类型。
[0044]然而在上述方案1)中,虽然关键词列表的体积比较小,但匹配的准确率低,无法精准地实现网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页分类方法,包括:分别对待分类网页的统一资源定位系统URL和URL对应的超文本标记语言HTML进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;基于所述目标特征向量,确定所述待分类网页的类型;其中,所述第一特征向量包括所述待分类网页的URL对应的特征向量;所述第二特征向量包括所述待分类网页的HTML对应的特征向量。2.根据权利要求1所述的方法,其中,所述对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量包括:对所述第一特征向量和所述第二特征向量进行拼接处理,得到所述目标特征向量。3.根据权利要求2所述的方法,其中,所述方法还包括以下之一:去除所述目标特征向量中的第一类型字符;截取所述目标特征向量中第一长度字符;对所述第一长度字符进行分词处理,得到分词结果;合并所述分词结果中相邻且相同的字符。4.根据权利要求1所述的方法,其中,所述基于所述目标特征向量,确定所述待分类网页的类型,包括:将所述目标特征向量作为分类子模型的输入,基于所述分类子模型的输出,确定所述待分类网页的类型。5.一种网页分类模型的训练方法,所述网络分类子模型包括分类子模型和分词子模型,所述方法包括:分别对第一样本集包括的统一资源定位系统URL样本子集和URL样本子集对应的超文本标记语言HTML样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量;基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量;将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型;匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。6.根据权利要求5所述的方法,其中,所述分别对第一样本集包括的统一资源定位系统URL和URL对应的超文本标记语言HTML进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量之前,所述方法还包括:获取URL样本子集和所述URL样本子集对应的HTML样本子集;基于所述URL样本子集和所述HTML样本子集确定第一训练样本集。7.根据权利要求5所述的方法,其中,所述匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数包括:若所述目标样本特征向量与所述目标标记特征向量相同,则确定不调整所述分词子模
型的参数;或者,若所述目标样本特征向量与所述目标标记特征向量不同,则基于所述目标样本特征向量与所述目标标...

【专利技术属性】
技术研发人员:倪超杰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1