一种基于网站联合特征的钓鱼网站检测方法技术

技术编号:29225025 阅读:23 留言:0更新日期:2021-07-10 01:08
本发明专利技术涉及Web安全以及人工智能领域,具体涉及一种基于网站联合特征的钓鱼网站检测方法,该方法是基于网站URL特征、网站内容、网站第三方服务特征信息以及网站被访问时内部的状态转移变化矩阵的联合特征的钓鱼网站检测方法,该方法通过预先建立黑、白数据集并分配标签,对其中每个网站进行格式、内容、WHOI S信息以及被访问时内部的状态转移变化矩阵进行特征提取,经过数据整理后形成网站联合特征向量,在利用不同机器学习分类算法结合联合特征进行训练,经过数据训练和测试后得到最优钓鱼网站检测分类器模型。本发明专利技术的优点是网站特征概括性强,利用URL特征、网站内容、网站第三方服务特征信息以及网站被访问时内部的状态转移变化矩阵的联合特征使网站描述更加准确。转移变化矩阵的联合特征使网站描述更加准确。转移变化矩阵的联合特征使网站描述更加准确。

【技术实现步骤摘要】
一种基于网站联合特征的钓鱼网站检测方法


[0001]本专利技术属于Web安全以及人工智能
,具体涉及一种基于网站联合特征的钓鱼网站检测方法。

技术介绍

[0002]现如今,互联网使人们的生活更加方便快捷,其功能也从单一的信息共享逐步演变成为大众化的信息交流。在电子商务、网络购物、网上支付技术丰富我们生活的同时,不法分子趁虚而入,他们利用网络钓鱼技术(如钓鱼网站) 诱骗用户信息,从中牟取暴利。
[0003]钓鱼网站不仅使个人财产遭受损失,同时对国家网络安全构成巨大威胁。因此防止网络钓鱼攻击成为网络安全领域研究的重点。据《中国互联网发展状况与安全报告》统计,仅在2015年,我国钓鱼网站数量已经远超2014年的9.3 万个,同比增长49.4%。而据中国电子商务协会数据显示,截至目前,我国因网络钓鱼受骗网民数量已达6000多万,年经济损失超过300亿元。对此,国内外学术研究机构和科技企业从未间断过对钓鱼网站的检测研究。然而由于钓鱼网站存活期短、数量庞大,威胁性强,一直以来人们都无法对钓鱼网站做到完全识别和检测,从根本上防御钓鱼网站。
[0004]目前,预测网络钓鱼的策略分为三大类别:自动消除钓鱼威胁、警告用户存在威胁和训练用户识别威胁。自动消除钓鱼威胁旨在保护用户而不需要用户做出任何意识或行动,当钓鱼网页被拦截则用户受到保护,然后将此钓鱼网页添加到黑名单中。一些网络安全厂商和电子邮件供应商使用黑名单、垃圾邮件过滤器、机器学习技术来识别钓鱼网页和钓鱼邮件;也有一些工具通过警告用户的方式通知此网页访问很可能是钓鱼网页,例如,主流的网络浏览器现在试图警告访问钓鱼网页的用户。然而这些方法有明显的缺陷,特别是这些浏览器插件工具需要最终用户参与,因此如果用户对此功能不理解,此方法存在失效的可能。然而互联网发展迅速,使用互联网的人群专业素质不等,同时高成本的训练代价也无法对大批量的用户进行专业训练。

技术实现思路

[0005]本专利技术的目的是提供一种基于稠密边界时空网络的时序行为检测方法,主要解决了基于机器学习技术进行进行钓鱼网站检测的问题。
[0006]为了达到上述目的,本专利技术的技术方案是:
[0007]一种基于网站联合特征的钓鱼网站检测方法,具体包括如下步骤:
[0008]步骤1、用网站爬虫技术从网站资源库分别获取钓鱼网站和合法网站URL特征、网站内容信息和第三方服务特征信息并为钓鱼网站和合法网站分配不同的标签,钓鱼网站标签为1,合法网站标签为0;
[0009]步骤2、使用有限状态自动机模型分别获取钓鱼网站和正常网站被访问时内部的状态转移变化矩阵的信息;
[0010]步骤3、对步骤1和步骤2所得信息进行特征提取;
[0011]步骤4、对步骤3提取到的特征进行数字向量化处理,并以特征矩阵的形式表示;
[0012]步骤5、对步骤4的特征矩阵进行过滤式特征选择,保留对模型影响较大的特征,组成网站联合特征向量;
[0013]步骤6、建立基于联合特征的钓鱼网站检测算法模型,利用钓鱼网站检测算法模型训练出钓鱼网站分类器,对可疑网站是否为钓鱼网站做出判断。
[0014]进一步的,步骤1中:
[0015]分别获取每个钓鱼网站URL对应的HTML

Dom、每个合法网站URL的HTML

Dom 以及每个钓鱼网站URL对应的网站内容、每个合法网站URL对应的网站内容;
[0016]获取第三方服务服务特征信息,包括WHIOIS信息和Alexa网页排名信息;
[0017]将获取的钓鱼网站和合法网站分配标签进行区别。
[0018]进一步的,步骤2中:
[0019]获取网站被访问时内部的状态转移信息,模拟用户访问钓鱼网站和合法网站会进行的操作并记录状态,遍历用户所有可能访问的状态,并记录。
[0020]进一步的,步骤3中:
[0021]提取网站URL特征包括:URL长度值分布、URL分割规律特征、IP地址特征、标点符号特征、敏感词汇特征、位置异常特征;
[0022]提取网站内容特征包括:HTML

Dom的文本特征、HTML

Dom的标签特征、网站的内容和结构特征、网站的内部链接特征、网站的PageRank特征、备案号信息;
[0023]提取网站第三方服务信息包括:WHIOIS信息中域名注册时间信息、Alexa 网页排名信息。
[0024]进一步的,步骤4中:
[0025]所述数字向量化处理方法包括:数字特征、文本特征、布尔特征的转化以及归一化、矩阵化处理,最终形成特征矩阵形式表示的特征向量。
[0026]进一步的,步骤5中:
[0027]所述过滤式特征选择的方法包括卡方检验。
[0028]进一步的,步骤6的具体步骤如下:
[0029]步骤601、将所有网站联合特征向量和标签数字特征矩阵和标签分为二组;第一组用于训练模型,第二组用于测试模型;
[0030]步骤602、对第一组网站联合特征向量和标签数字特征和分类的标签输入分类器中进行分类,分类器包括:逻辑回归、支持向量机、随机森林、神经网络,对模型的输出结果进行测评,调节模型参数评估并修正模型;
[0031]步骤603、将第二组网站联合特征向量和标签数字特征和分类的标签输入到成熟模型中,对模型的输出结果进行测评,得到实际测量值,即可以判定每一个URL是否为钓鱼网站。
[0032]与现有技术相比,本专利技术的有益效果如下:
[0033]本专利技术通过增加基于网站URL、网站内容、网站第三方服务特征信息以及网站被访问时内部的状态转移变化矩阵的联合特征来提高使用人工智能分类方法进行钓鱼网站判定的准确度。
[0034]本专利技术通过把经过整理后的特征向量作为机器学习算法的输入,利用选择逻辑回
归(Logistic Regression)、支持向量机(Support Vector Machine)、随机森林(RandomForest)、神经网络(NeuralNetwork)等不同机器学习分类算法结合联合特征进行训练,经过数据训练和测试后得到最优钓鱼网站检测分类器模型作为本次的分类器。
附图说明
[0035]图1为获取钓鱼网站和合法网站的URL、HTML

Dom、第三方服务信息、网站被访问时内部的状态转移变化矩阵,构建数据集的流程图;
[0036]图2为特征提取的流程图;
[0037]图3为特征向量化的流程图;
[0038]图4为机器学习分类算法训练和网站测试流程图;
[0039]图5为本专利技术方法的总体流程图。
具体实施方式
[0040]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网站联合特征的钓鱼网站检测方法,其特征在于,具体包括如下步骤:步骤1、用网站爬虫技术从网站资源库分别获取钓鱼网站和合法网站URL特征、网站内容信息和第三方服务特征信息并为钓鱼网站和合法网站分配不同的标签,钓鱼网站标签为1,合法网站标签为0;步骤2、使用有限状态自动机模型分别获取钓鱼网站和正常网站被访问时内部的状态转移变化矩阵的信息;步骤3、对步骤1和步骤2所得信息进行特征提取;步骤4、对步骤3提取到的特征进行数字向量化处理,并以特征矩阵的形式表示;步骤5、对步骤4的特征矩阵进行过滤式特征选择,保留对模型影响较大的特征,组成网站联合特征向量;步骤6、建立基于联合特征的钓鱼网站检测算法模型,利用钓鱼网站检测算法模型训练出钓鱼网站分类器,对可疑网站是否为钓鱼网站做出判断。2.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法,其特征在于,步骤1中:分别获取每个钓鱼网站URL对应的HTML

Dom、每个合法网站URL的HTML

Dom以及每个钓鱼网站URL对应的网站内容、每个合法网站URL对应的网站内容;获取第三方服务服务特征信息,包括WHIOIS信息和Alexa网页排名信息;将获取的钓鱼网站和合法网站分配标签进行区别。3.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法,其特征在于,步骤2中:获取网站被访问时内部的状态转移信息,模拟用户访问钓鱼网站和合法网站会进行的操作并记录状态,遍历用户所有可能访问的状态,并记录。4.根据权利要求1所述基于网站联合特征的钓鱼网站...

【专利技术属性】
技术研发人员:容晓峰折宇超贾雪鹏
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1