随机森林模型的训练方法、恶意网站检测方法及装置制造方法及图纸

技术编号:37582974 阅读:15 留言:0更新日期:2023-05-15 07:56
本公开的实施例提供了一种随机森林模型的训练方法、恶意网站检测方法及装置,涉及数据处理领域。所述方法包括:获取恶意网站数据集中样本的网站特征参数;对各样本网站特征参数的内容进行归一化处理并进行特征拼接;根据归一化处理及特征拼接后的网站特征参数以及样本对应的标签,生成训练集;利用所述训练集对随机森林模型进行训练。以此方式,可以实现从多个维度上对恶意网站进行分析预测,并通过随机森林模型实现针对恶意网站的准确预测和分类。分类。分类。

【技术实现步骤摘要】
随机森林模型的训练方法、恶意网站检测方法及装置


[0001]本公开涉及数据处理领域,尤其涉及一种随机森林模型的训练方法、恶意网站检测方法及装置。

技术介绍

[0002]恶意网站指故意在计算机系统上执行恶意任务的病毒、蠕虫和特洛伊木马等的非法网站。这类网站通常都有一个共同特点,他们通常情况下是以某种网页形式可以让人们正常浏览页面内容,同时非法获取电脑里面的各种数据。
[0003]恶意网站严重影响人们日常对计算机的使用,目前,面对互联网中每日激增的恶意网站事件,迫切需要一种能够有效检测出包含钓鱼网站等恶意链接的方法。

技术实现思路

[0004]本公开提供了一种随机森林模型的训练方法、恶意网站检测方法及装置。
[0005]根据本公开的第一方面,提供了一种随机森林模型的训练方法,该方法包括:获取恶意网站数据集中样本的网站特征参数;对各样本网站特征参数的内容进行归一化处理并进行特征拼接;根据归一化处理及特征拼接后的网站特征参数以及样本对应的标签,生成训练集;利用所述训练集对随机森林模型进行训练。
[0006]在第一方面的一些实现方式中,所述网站特征是根据恶意网站数据集中对样本的标签,以及各样本在对应特征的参数分布情况,从多个特征中确定的。
[0007]在第一方面的一些实现方式中,所述根据恶意网站数据集中对样本的标签,以及各样本在对应特征的参数分布情况,从多个特征中确定包括:分别将标签为恶意的样本和标签为正常的样本以可以区分的参数标注方式在各特征中进行可视化标注;根据标签为恶意的样本和标签为正常的样本在数值上是否有显著性差异确定对应特征是否为网站特征,若有,则确定对应特征为网站特征,若没有,则舍弃对应特征。
[0008]在第一方面的一些实现方式中,所述网站特征包括:基于地址的功能、基于异常的特征、基于HTML源码的特性、基于领域的特性中的一个或多个。
[0009]在第一方面的一些实现方式中,还包括标注网站特征参数,包括:对于只需判定是或否的具体特征,用0或1标注,其中,0为正常,1为恶意;其余网站特征参数中,数值越高则恶意程度越高。
[0010]在第一方面的一些实现方式中,还包括:当恶意网站数据集中标签为恶意的样本和标签为正常的样本数量不平衡时,对少数标签对应的样本根据已知样本进行过采样。
[0011]根据本公开的第二方面,提供了一种恶意网站检测方法,该方法包括:
将待检测网站的网站特征参数输入采用上述随机森林模型的训练方法训练得到的随机森林模型,根据随机森林模型输出的标签判断是否为恶意网站。
[0012]在第二方面的一些实现方式中,还包括更新训练集样本,包括:当随机森林模型无法输出特征时,标记对应网站的网站特征参数,并对对应网站加标签,将对应的网站特征参数及标签存入训练集。
[0013]根据本公开的第三方面,提供了一种随机森林模型的训练装置,该装置包括:获取单元,用于获取恶意网站数据集中样本的网站特征参数;参数处理单元,用于对各样本网站特征参数的内容进行归一化处理并进行特征拼接;训练集生成单元,用于根据归一化处理及特征拼接后的网站特征参数以及样本对应的标签,生成训练集;模型训练单元,用于利用所述训练集对随机森林模型进行训练。
[0014]根据本公开的第四方面,提供了一种恶意网站检测装置,该装置包括:模型生成单元,用于采用上述随机森林模型的训练方法训练随机森林模型;检测单元,用于将待检测网站的网站特征参数输入训练后的随机森林模型,根据随机森林模型输出的标签判断是否为恶意网站。
[0015]本公开将各样本网站特征参数的内容进行归一化处理并进行特征拼接生成训练集,以此训练随机森林模型,实现从多个维度上对恶意网站进行分析预测。
[0016]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0017]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1是本公开实施例提供的一种随机森林模型的训练方法的流程图;图2是本公开实施例提供的网站特征标注示意图;图3是本公开实施例提供的一种恶意网站检测方法的流程图;图4是本公开实施例提供的一种随机森林模型的训练装置的框图;图5是本公开实施例提供的一种恶意网站检测装置的框图;图6是本公开实施例提供的一种示例性电子设备的方框图。
具体实施方式
[0018]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0019]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在
三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0020]目前,恶意网站严重影响人们日常对计算机的使用,而现有技术中还没有一种能够准确识别恶意网站的方式。且恶意网站形式变化多样,机器难以识别。为此,本公开将恶意网站与正常网站的静态特征进行对比,并将对比结果生成训练集对随机森林模型进行训练,使随机森林模型能够准确识别恶意网站,实现从多个维度上对恶意网站进行分析预测。
[0021]图1是本公开实施例提供的一种随机森林模型的训练方法100的流程图。
[0022]如图1所示,所述随机森林模型的训练方法100包括:S101: 获取恶意网站数据集中样本的网站特征参数;所述恶意网站数据集即收集有正常网站及恶意网站的数据集,所述恶意网站数据集对正常网站和恶意网站均标有标签,在本公开一些实施例中,选用UCI的开源恶意网站数据集。
[0023]本公开中,所述网站特征的含义为:针对网站的各种判断标准,以下简称为特征。
[0024]所述网站特征参数的含义为:网站各种判断标准下的得分,以下简称为参数。
[0025]在一些实施例中,所述网站特征是根据恶意网站数据集中对样本的标签,以及各样本在对应特征的参数分布情况,从多个特征中确定的。
[0026]可以理解的是,恶意网站数据集中的样本及对应标签来自于用户上传或开发者自行收集,用户上传或开发者收集时,判断恶意网站的方式为在网站中发现了病毒、蠕虫和特洛伊木马等。
[0027]然而,随机森林模型无法查找网站中的病毒,因此本公开针对网站中明显的静态特征进行分析,以此区分正常网站或恶意网站,但正常网站和恶意网站之间可能有许多特征是相似的,因此,仅仅观察其中一个特征并不能够分辨正常网站与恶意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种随机森林模型的训练方法,其特征在于,包括:获取恶意网站数据集中样本的网站特征参数;对各样本网站特征参数的内容进行归一化处理并进行特征拼接;根据归一化处理及特征拼接后的网站特征参数以及样本对应的标签,生成训练集;利用所述训练集对随机森林模型进行训练。2.根据权利要求1所述的随机森林模型的训练方法,其特征在于,所述网站特征是根据恶意网站数据集中对样本的标签,以及各样本在对应特征的参数分布情况,从多个特征中确定的。3.根据权利要求2所述的随机森林模型的训练方法,其特征在于,所述根据恶意网站数据集中对样本的标签,以及各样本在对应特征的参数分布情况,从多个特征中确定包括:分别将标签为恶意的样本和标签为正常的样本以可以区分的参数标注方式在各特征中进行可视化标注;根据标签为恶意的样本和标签为正常的样本在数值上是否有显著性差异确定对应特征是否为网站特征,若有,则确定对应特征为网站特征,若没有,则舍弃对应特征。4.根据权利要求1所述的随机森林模型的训练方法,其特征在于,所述网站特征包括:基于地址的功能、基于异常的特征、基于HTML源码的特性、基于领域的特性中的一个或多个。5.根据权利要求1所述的随机森林模型的训练方法,其特征在于,还包括标注网站特征参数,包括:对于只需判定是或否的具体特征,用0或1标注,其中,0为正常,1为恶意;其余网站特征参数中,数值越高则恶意程度越高。6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:杨星沈传宝纪守领吴志勇张旭鸿吴庆刘沛宇梁振宇许颢砾刘加瑞王闰婷
申请(专利权)人:北京华云安信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1