【技术实现步骤摘要】
网页分类方法、网页分类模型的训练方法及装置
[0001]本公开涉及数据处理
,尤其涉及人工智能领域和智能推荐领域的网页分类方法、网页分类模型的训练方法及装置。
技术介绍
[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理和决策的功能。
[0003]网页分类是人工智能领域的重要应用之一,能够在信息过载的环境中对网页进行分类。
技术实现思路
[0004]本公开提供了一种网页分类方法、装置、电子设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种网页分类方法,包括:
[0006]分别对待分类网页的统一资源定位系统(Uniform Resource Locator,URL)和URL对应的超文本标记语言(Hyper Text Markup Language,HTML)进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;
[0007]对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;
[0008]基于所述目标特征向量,确定所述待分类网页的类型;
[0009]其中,所述第一特征向量包括所述待分类网页的URL对应的特征向量;所述第二特征向量包括所述待分类网页的HTML对应的特征向量。
[0010]根据本公开的第二方面,提供了一种网页分类模型的训练方法,所述网络分类子模型包括分类子模型和分词子模型,所述 ...
【技术保护点】
【技术特征摘要】
1.一种网页分类方法,包括:分别对待分类网页的统一资源定位系统URL和URL对应的超文本标记语言HTML进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;基于所述目标特征向量,确定所述待分类网页的类型;其中,所述第一特征向量包括所述待分类网页的URL对应的特征向量;所述第二特征向量包括所述待分类网页的HTML对应的特征向量。2.根据权利要求1所述的方法,其中,所述对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量包括:对所述第一特征向量和所述第二特征向量进行拼接处理,得到所述目标特征向量。3.根据权利要求2所述的方法,其中,所述方法还包括以下之一:去除所述目标特征向量中的第一类型字符;截取所述目标特征向量中第一长度字符;对所述第一长度字符进行分词处理,得到分词结果;合并所述分词结果中相邻且相同的字符。4.根据权利要求1所述的方法,其中,所述基于所述目标特征向量,确定所述待分类网页的类型,包括:将所述目标特征向量作为分类子模型的输入,基于所述分类子模型的输出,确定所述待分类网页的类型。5.一种网页分类模型的训练方法,所述网络分类子模型包括分类子模型和分词子模型,所述方法包括:分别对第一样本集包括的统一资源定位系统URL样本子集和URL样本子集对应的超文本标记语言HTML样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量;基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量;将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型;匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。6.根据权利要求5所述的方法,其中,所述分别对第一样本集包括的统一资源定位系统URL和URL对应的超文本标记语言HTML进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量之前,所述方法还包括:获取URL样本子集和所述URL样本子集对应的HTML样本子集;基于所述URL样本子集和所述HTML样本子集确定第一训练样本集。7.根据权利要求5所述的方法,其中,所述匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数包括:若所述目标样本特征向量与所述目标标记特征向量相同,则确定不调整所述分词子模
型的参数;或者,若所述目标样本特征向量与所述目标标记特征向量不同,则基于所述目标样本特征向量与所述目标标...
【专利技术属性】
技术研发人员:倪超杰,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。