随机森林模型的训练方法、恶意网站检测方法及装置制造方法及图纸

技术编号：37582974 阅读：15 留言：0更新日期：2023-05-15 07:56

本公开的实施例提供了一种随机森林模型的训练方法、恶意网站检测方法及装置，涉及数据处理领域。所述方法包括：获取恶意网站数据集中样本的网站特征参数；对各样本网站特征参数的内容进行归一化处理并进行特征拼接；根据归一化处理及特征拼接后的网站特征参数以及样本对应的标签，生成训练集；利用所述训练集对随机森林模型进行训练。以此方式，可以实现从多个维度上对恶意网站进行分析预测，并通过随机森林模型实现针对恶意网站的准确预测和分类。分类。分类。

全部详细技术资料下载

【技术实现步骤摘要】
随机森林模型的训练方法、恶意网站检测方法及装置

[0001]本公开涉及数据处理领域，尤其涉及一种随机森林模型的训练方法、恶意网站检测方法及装置。

技术介绍

[0002]恶意网站指故意在计算机系统上执行恶意任务的病毒、蠕虫和特洛伊木马等的非法网站。这类网站通常都有一个共同特点，他们通常情况下是以某种网页形式可以让人们正常浏览页面内容，同时非法获取电脑里面的各种数据。
[0003]恶意网站严重影响人们日常对计算机的使用，目前，面对互联网中每日激增的恶意网站事件，迫切需要一种能够有效检测出包含钓鱼网站等恶意链接的方法。

技术实现思路

[0004]本公开提供了一种随机森林模型的训练方法、恶意网站检测方法及装置。
[0005]根据本公开的第一方面，提供了一种随机森林模型的训练方法，该方法包括：获取恶意网站数据集中样本的网站特征参数；对各样本网站特征参数的内容进行归一化处理并进行特征拼接；根据归一化处理及特征拼接后的网站特征参数以及样本对应的标签，生成训练集；利用所述训练集对随机森林模型进行训练。
[0006]在第一方面的一些实现方式中，所述网站特征是根据恶意网站数据集中对样本的标签，以及各样本在对应特征的参数分布情况，从多个特征中确定的。
[0007]在第一方面的一些实现方式中，所述根据恶意网站数据集中对样本的标签，以及各样本在对应特征的参数分布情况，从多个特征中确定包括：分别将标签为恶意的样本和标签为正常的样本以可以区分的参数标注方式在各特征中进行可视化标注；根据标签为恶意的样...

【技术保护点】

【技术特征摘要】
1.一种随机森林模型的训练方法，其特征在于，包括：获取恶意网站数据集中样本的网站特征参数；对各样本网站特征参数的内容进行归一化处理并进行特征拼接；根据归一化处理及特征拼接后的网站特征参数以及样本对应的标签，生成训练集；利用所述训练集对随机森林模型进行训练。2.根据权利要求1所述的随机森林模型的训练方法，其特征在于，所述网站特征是根据恶意网站数据集中对样本的标签，以及各样本在对应特征的参数分布情况，从多个特征中确定的。3.根据权利要求2所述的随机森林模型的训练方法，其特征在于，所述根据恶意网站数据集中对样本的标签，以及各样本在对应特征的参数分布情况，从多个特征中确定包括：分别将标签为恶意的样本和标签为正常的样本以可以区分的参数标注方式在各特征中进行可视化标注；根据标签为恶意的样本和标签为正常的样本在数值上是否有显著性差异确定对应特征是否为网站特征，若有，则确定对应特征为网站特征，若没有，则舍弃对应特征。4.根据权利要求1所述的随机森林模型的训练方法，其特征在于，所述网站特征包括：基于地址的功能、基于异常的特征、基于HTML源码的特性、基于领域的特性中的一个或多个。5.根据权利要求1所述的随机森林模型的训练方法，其特征在于，还包括标注网站特征参数，包括：对于只需判定是或否的具体特征，用0或1标注，其中，0为正常，1为恶意；其余网站特征参数中，数值越高则恶意程度越高。6.根据权利要求1所述的...

【专利技术属性】
技术研发人员：杨星，沈传宝，纪守领，吴志勇，张旭鸿，吴庆，刘沛宇，梁振宇，许颢砾，刘加瑞，王闰婷，
申请(专利权)人：北京华云安信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人