System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网页分类方法、装置、电子设备及存储介质制造方法及图纸_技高网

网页分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40657314 阅读:5 留言:0更新日期:2024-03-18 18:48
本申请提供了一种网页分类方法、装置、电子设备及存储介质,涉及网络与信息安全技术领域,旨在准确有效地发现非正常网页。所述方法包括:获取待分类网页的源代码;对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征值;将所述多个源代码特征值输入预先训练的决策树模型,得到所述待分类网页的分类结果,所述分类结果表征所述待分类网页是正常网页还是非正常网页。

【技术实现步骤摘要】

本申请涉及网络与信息安全,特别是涉及一种网页分类方法、装置、电子设备及存储介质


技术介绍

1、为了保障用户合法权益,构建安全可靠的信息通信环境,应该及时发现并处置非正常网页。相关技术中,主要是通过提取网页中的文字、图片、音频、视频等内容的内容特征,然后通过关键词策略、不良信息样本库、黑名单等监控手段来发现非正常网页。然而,这种方法是基于内容特征库中已发现的关键词、样本、图片等的内容特征进行判断的,当内容特征库中不存在相关内容特征时,无法及时发现新出现的非正常网页,导致无法及时有效处置非正常网页。因此,急需一种更加准确有效地发现非正常网页的方法。


技术实现思路

1、鉴于上述问题,本申请实施例提供了一种网页分类方法、装置、电子设备及存储介质,以便克服上述问题或者至少部分地解决上述问题。

2、本申请实施例的第一方面,提供了一种网页分类方法,包括:

3、获取待分类网页的源代码;

4、对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征值;

5、将所述多个源代码特征值输入预先训练的决策树模型,得到所述待分类网页的分类结果,所述分类结果表征所述待分类网页是正常网页还是非正常网页。

6、可选地,每个源代码特征值为0/1型特征值或非0/1型特征值;所述决策树模型的模型参数包括:每个非0/1型特征值对应的置信阈值;

7、所述将所述多个源代码特征值输入预先训练的决策树模型,得到所述待分类网页的分类结果,包括:p>

8、将所述多个源代码特征值输入预先训练的决策树模型,得到所述预先训练的决策树模型针对每个0/1型特征值的第一类别预测结果,以及,针对每个非0/1型特征值的第二类别预测结果,所述第二类别预测结果是根据每个非0/1型特征值和该非0/1型特征值对应的置信阈值之间大小关系预测出的;

9、根据所述第一类别预测结果和所述第二类别预测结果,得到所述待分类网页的分类结果。

10、可选地,每个源代码特征值为0/1型特征值或非0/1型特征值;对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征值,包括:

11、按照多个0/1型特征维度和多个非0/1型特征维度,对所述待分类网页的源代码进行分析,得到所述待分类网页的多个0/1型特征值和多个非0/1型特征值;

12、其中,所述多个0/1型特征至少包括以下任意一种或多种:框架嵌套特征、页面跳转特征、代码加密特征、代码混淆特征、访问终端类型特征、内容动态显示特征、网页禁用操作特征,所述多个非0/1型特征至少包括以下任意一种或多种:代码拼接特征、搜索引擎特征、特定文件特征、样式呈现内容特征、内容转义特征。

13、可选地,所述决策树模型是通过以下步骤训练得到的:

14、获取网页样本集,所述网页样本集包括多个携带类别标签的网页样本,所述类别标签表征所述网页样本是正常网页还是非正常网页;

15、按照多个0/1型特征维度和多个非0/1型特征维度,对所述多个携带类别标签的网页样本的源代码进行分析,得到所述多个携带类别标签的网页样本的多个0/1型特征值和多个非0/1型特征值;

16、将所述多个携带类别标签的网页样本的多个0/1型特征值和多个非0/1型特征值输入待训练的决策树模型,得到所述待训练的决策树模型输出的所述多个携带类别标签的网页样本的类别预测结果;

17、根据所述多个携带类别标签的网页样本的类别预测结果和类别标签,计算所述待训练的决策树模型的评估指标;

18、在所述待训练的决策树模型的评估指标未达到合格指标的情况下,对所述待训练的决策树模型的模型参数进行更新,并继续训练,所述模型参数包括以下至少一者:每个非0/1型特征值对应的置信阈值、所述待训练的决策树模型中代表每个0/1型特征或非0/1型特征的节点、所述待训练的决策树模型的属性值;

19、在所述待训练的决策树模型的评估指标达到合格指标的情况下,结束训练,得到所述预先训练的决策树模型。

20、可选地,在所述获取待分类网页的源代码之前,还包括:

21、获取网页的域名信息;

22、在所述网页的域名信息表征所述网页为外链的情况下,将所述网页确定为所述待分类网页。

23、可选地,在所述待分类网页的分类结果表征所述待分类网页为非正常网页的情况下,还包括:

24、对所述待分类网页进行封停处置。

25、可选地,在得到所述待分类网页的类别为非正常网页的情况下,还包括:

26、提取所述待分类网页的内容特征;

27、将所述内容特征,添加至非正常网页的内容特征库。

28、可选地,在所述待分类网页的分类结果表征所述待分类网页为非正常网页的情况下,还包括:

29、判断所述待分类网页是否被劫持跳转到其他网页;

30、在所述待分类网页被劫持跳转到其他网页的情况下,将所述其他网页的网址标记为暗链;和/或,获取所述其他网页的类型,向所述待分类网页发送告警信息,所述告警信息包括所述其他网页的网址和类型。

31、本申请实施例的第二方面,提供了一种网页分类装置,包括:

32、获取模块,用于获取待分类网页的源代码;

33、处理模块,用于对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征值;

34、分类模块,用于将所述多个源代码特征值输入预先训练的决策树模型,得到所述待分类网页的分类结果,所述分类结果表征所述待分类网页是正常网页还是非正常网页。

35、本申请实施例的第三方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的网页分类方法。

36、本申请实施例的第四方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面所述的网页分类方法。

37、本申请实施例的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的网页分类方法。

38、本申请实施例包括以下优点:

39、本实施例中,获取待分类网页的源代码;对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征值;将所述多个源代码特征值输入预先训练的决策树模型,得到所述待分类网页的分类结果,所述分类结果表征所述待分类网页是正常网页还是非正常网页。如此,相比于基于内容特征库中的内容特征确定待分类网页的分类结果,本实施例基于待分类网页的多个源代码特征值确定待分类网页的分类结果,具有无需建立内容特征库,能有效检测出新型非正常网页,从而提高分类准确性的优点;并且,利用预先训练的决策树模型可以快速、准确地得到待分类网页的分类结果,从而可以及时有效处置非正常本文档来自技高网...

【技术保护点】

1.一种网页分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,每个源代码特征值为0/1型特征值或非0/1型特征值;所述决策树模型的模型参数包括:每个非0/1型特征值对应的置信阈值;

3.根据权利要求1所述的方法,其特征在于,每个源代码特征值为0/1型特征值或非0/1型特征值;对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征值,包括:

4.根据权利要求3所述的方法,其特征在于,所述决策树模型是通过以下步骤训练得到的:

5.根据权利要求1-4任一所述的方法,其特征在于,在所述获取待分类网页的源代码之前,还包括:

6.根据权利要求1-4任一所述的方法,其特征在于,在所述待分类网页的分类结果表征所述待分类网页为非正常网页的情况下,还包括:

7.根据权利要求1-4任一所述的方法,其特征在于,在得到所述待分类网页的类别为非正常网页的情况下,还包括:

8.根据权利要求1-4任一所述的方法,其特征在于,在所述待分类网页的分类结果表征所述待分类网页为非正常网页的情况下,还包括:

9.一种网页分类装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括:

11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至8任一项所述的网页分类方法。

12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的网页分类方法。

...

【技术特征摘要】

1.一种网页分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,每个源代码特征值为0/1型特征值或非0/1型特征值;所述决策树模型的模型参数包括:每个非0/1型特征值对应的置信阈值;

3.根据权利要求1所述的方法,其特征在于,每个源代码特征值为0/1型特征值或非0/1型特征值;对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征值,包括:

4.根据权利要求3所述的方法,其特征在于,所述决策树模型是通过以下步骤训练得到的:

5.根据权利要求1-4任一所述的方法,其特征在于,在所述获取待分类网页的源代码之前,还包括:

6.根据权利要求1-4任一所述的方法,其特征在于,在所述待分类网页的分类结果表征所述待分类网页为非...

【专利技术属性】
技术研发人员:王莺燕
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1