恶意URL检测方法及系统技术方案

技术编号:23561984 阅读:31 留言:0更新日期:2020-03-25 06:41
本发明专利技术提出了一种恶意URL检测方法及系统。恶意URL检测方法包括:获取URL待分析数据集,并获取恶意URL训练样本集;利用恶意URL训练样本集训练SVM支持向量机对URL待分析数据集进行分类,得到恶意URL数据集和待标注URL数据集;采用聚类算法对待标注URL数据集进行聚类,从而得到待标注URL样本集;将待标注URL样本集根据是否具有恶意的判断结果进行标注,从而分为标注恶意URL样本集和无标注URL样本集;将标注恶意URL样本集和恶意URL训练样本集以集合求并集的方式合并,得到更新后的恶意URL训练样本集;将待标注URL数据集减去标注恶意URL样本集,得到更新后的URL测试数据集。本发明专利技术的恶意URL检测方法及系统设计新颖,实用性强。

Malicious URL detection method and system

【技术实现步骤摘要】
恶意URL检测方法及系统
本专利技术涉及网络信息安全
,尤其涉及一种恶意URL检测方法及系统。
技术介绍
随着互联网的迅速发展,出现了越来越多的恶意URL攻击,严重威胁着网络安全。传统的URL攻击检测系统主要通过使用黑名单或规则列表。而这些名单或者规则列表将变得越来越长,以这些方式防范所有的攻击是不现实的。更严重的是,这些方法难以检测潜在的威胁,网络安全工程师很难有效地发现新出现的恶意URL攻击。为了提高算法的泛化能力,很多研究人员采用基于机器学习的方法来完成这项任务。这些方法主要分为两类:一是无监督的方式,例如异常检测技术,此类方法不需要对数据进行标注;但模型对于输入特征的要求远高于一般的有监督模型,通常在特征数量稍多的情况下就难以保持其分值顶部的性能。二是有监督的方式,基于人的业务经验进行人工标注,随后基于标注进行有监督学习得到模型,但标注成本高、标注专家本身存在人工主观性误差,这会导致准确性降低的问题。当可以得到标注数据时,有监督学习方法通常实现更强的泛化能力。然而在很多时候,我们很难获得精准的标注数据。在更多时候,本文档来自技高网...

【技术保护点】
1.一种恶意URL检测方法,其特征在于,包括以下步骤:/n步骤S1、获取URL待分析数据集,并获取恶意URL训练样本集;利用恶意URL训练样本集训练SVM支持向量机对URL待分析数据集进行分类,得到恶意URL数据集和待标注URL数据集;/n步骤S2、采用聚类算法对待标注URL数据集进行聚类,从而得到待标注URL样本集;将待标注URL样本集根据是否具有恶意的判断结果进行标注,从而分为标注恶意URL样本集和无标注URL样本集;将标注恶意URL样本集和恶意URL训练样本集以集合求并集的方式合并,得到更新后的恶意URL训练样本集;将待标注URL数据集减去标注恶意URL样本集,得到更新后的URL测试数据...

【技术特征摘要】
1.一种恶意URL检测方法,其特征在于,包括以下步骤:
步骤S1、获取URL待分析数据集,并获取恶意URL训练样本集;利用恶意URL训练样本集训练SVM支持向量机对URL待分析数据集进行分类,得到恶意URL数据集和待标注URL数据集;
步骤S2、采用聚类算法对待标注URL数据集进行聚类,从而得到待标注URL样本集;将待标注URL样本集根据是否具有恶意的判断结果进行标注,从而分为标注恶意URL样本集和无标注URL样本集;将标注恶意URL样本集和恶意URL训练样本集以集合求并集的方式合并,得到更新后的恶意URL训练样本集;将待标注URL数据集减去标注恶意URL样本集,得到更新后的URL测试数据集;
步骤S3、利用更新后的恶意URL训练样本集训练SVM支持向量机对更新后的URL测试数据集进行分类,输出无标注URL数据集。


2.根据权利要求1所述的恶意URL检测方法,其特征在于,聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。


3.根据权利要求2所述的恶意URL检测方法,其特征在于,步骤S2采用采用MiniBatchK均值算法对待标注URL数据集进行聚类,从而得到待标注URL样本集。


4.根据权利要求1所述的恶意URL检测方法,其特征在于,步骤S3还包括:将URL待分析数据集减去无标注URL数据集,从而得到最终的恶意URL数据集。


5.一种恶意URL检测系统,其特征在...

【专利技术属性】
技术研发人员:熊骁郭岗林飞古元沈智杰景晓军
申请(专利权)人:深圳市任子行科技开发有限公司北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1