【技术实现步骤摘要】
一种网页数据分类方法、装置、设备及存储介质
[0001]本公开涉及网页安全检测领域,尤其涉及一种网页数据分类方法、装置、设备及存储介质。
技术介绍
[0002]对网页分类是自动化处理技术中最为常见的要求。从人工分类到基于规则的自动化分类,再到现在随着人工智能技术的发展,机器学习已经逐渐应用在网页分类中。但是,机器学习有一个很大的问题,就是样本标记。通常,样本在进行标记时,需要先建立特征工程,然后再进行样本标记。当特征发生变化时,需要重新进行标记,带来较大的变更成本。同时识别的精度问题也需要进行优化提高。
技术实现思路
[0003]本公开提供了一种网页数据分类方法、装置、设备及存储介质。
[0004]根据本公开的第一方面,提供了一种网页数据分类模型的训练方法。
[0005]该方法包括:
[0006]对预设数量的HTML数据进行标注,为HTML数据添加类别标签,生成HTML数据集;
[0007]对HTML数据集中的HTML数据进行解析,生成全文路径列表和全文本检索数据;根据全文路径 ...
【技术保护点】
【技术特征摘要】
1.一种网页数据分类模型的训练方法,其特征在于,包括:对预设数量的HTML数据进行标注,为所述HTML数据添加类别标签,生成HTML数据集;对所述HTML数据集中的HTML数据进行解析,生成全文路径列表和全文本检索数据;根据所述全文路径列表、所述全文本检索数据和对应的HTML数据建立特征工程,生成训练样本,进而生成训练样本集;以训练样本作为输入,以类别标签作为输出,对分类器进行训练,生成网页数据分类模型。2.根据权利要求1所述的方法,其特征在于,所述对所述已标记HTML数据进行解析,生成全文路径列表和全文本检索数据,包括:对HTML数据进行解析,生成DOM树;将DOM树的路径信息、节点数据和节点扩展属性信息作为路径记录,将每一个路径记录为一个元组,生成全文路径列表;获取HTML数据对应的HTML文本;将HTML文本进行分词,生成关键字列表,根据所述关键字列表得到关键字和所述关键字的出现频率,生成全文本检索数据。3.根据权利要求1所述的方法,其特征在于,所述以训练样本作为输入,以对应的类别标签作为输出,对分类器进行训练,生成网页数据分类模型包括:以训练样本作为输入,以对应的类别标签作为输出,对分类器进行训练,判断网页数据分类模型的输出与对应的分类标签的误差是否小于预设阈值;若网页数据分类模型的输出与对应的分类标签的误差大于预设阈值,则对分类器的参数进行调整,直到网页数据分类模型的输出与对应的分类标签的误差小于预设阈值,完成对分类器的训练,生成网页数据分类模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述全文路径列表、所述全文本检索数据和所述HTML数据集中的HTML数据建立特征工程包括:将所述HTML数据的属性信息的文本、行号、路径、类型、属性值作为特征进行特征工程处理,生成训练样本集。5.一种基于权利要求1
‑
4任一项所述的网页数据分类模型的网页数据分类检测方法,其特征在于,所述方法包括:获取待分类检测的网页数据中的HTML数据并解析...
【专利技术属性】
技术研发人员:郝伟,沈传宝,刘加瑞,
申请(专利权)人:安徽华云安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。