一种面向URL和标签结合的泛化钓鱼网站检测方法及系统技术方案

技术编号:36379128 阅读:53 留言:0更新日期:2023-01-18 09:40
本发明专利技术涉及网络安全技术领域,具体为一种面向URL和标签结合的泛化钓鱼网站检测方法包括以下步骤:输入待检测网站的URL;对输入的URL进行检测,输出该URL属于钓鱼网站的概率;下载待检测URL对应的网页,统计所述网页的HTML标签数量,利用HTML标签列表对统计结果进行向量化;判断待检测网站是否为钓鱼网站;有益效果为:本发明专利技术提出的面向URL和标签结合的泛化钓鱼网站检测方法及系统结合了网站URL和网页内容进行钓鱼网站检测,通过先使用URL级钓鱼检测模块进行检测,然后根据URL级钓鱼检测模块的分类置信度自适应地选择是否使用网页内容级钓鱼检测模块进行检测,本发明专利技术具有检测速度快、准确率高的优点。准确率高的优点。准确率高的优点。

【技术实现步骤摘要】
一种面向URL和标签结合的泛化钓鱼网站检测方法及系统


[0001]本专利技术涉及网络安全
,具体为一种面向URL和标签结合的泛化钓鱼网站检测方法及系统。

技术介绍

[0002]钓鱼网站的检测方法经历了从基于黑白名单的检测,到基于启发式规则的检测,再到当前主流的基于机器学习的检测的演变。得益于其极低的误报率,基于黑白名单的检测方法自专利技术以来被业界广泛地应用。
[0003]现有技术中,由于基于黑白名单的检测方法具有较高的漏报率,后来研究者提出了基于启发式规则的检测方法。虽然相比于基于黑白名单的检测方法来说,基于启发式规则的检测方法具有较强的泛化能力,可以检测部分未知的钓鱼网站,但是这种方法的自适应性较差,且严重依赖所设计的启发式规则,因此在实施当中容易被攻击者规避。为了增强钓鱼网站检测方法的自适应性,研究者提出了基于机器学习的检测方法:通过从网站的URL、网页内容中提取特征,然后利用机器学习算法来进行网站分类,从而判断该网站是否属于钓鱼网站。但是这种基于机器学习的检测方法的性能严重依赖于手工特征设计的好坏,容易被攻击者规避,其泛化能力仍然不足,难以检测新型的未知钓鱼网站。
[0004]并且,于2018年12月28日公开的、公开号为CN109101552A的中国专利技术专利申请“一种基于深度学习的钓鱼网站URL检测方法”提出了一种针对钓鱼网站URL的检测方案。但该专利仅针对网站URL进行检测,无法满足对短链接(社交软件如微博,会将较长的URL进行压缩,得到一个较短的链接,在用户访问该短链接的时候再重定向到原来的网站中)的检测,这个缺点极大地限制了仅针对钓鱼网站URL进行检测的技术方案的应用场景;于2018年11月9日公开的、公开号为CN108777674A的中国专利技术专利申请“一种基于多特征融合的钓鱼网站检测方法”提出了一种利用URL特征和网页内容特征进行钓鱼网站检测的方案。但该方法完成一次钓鱼网站检测需要先提取URL特征、网页内容特征后再利用机器学习算法进行分类,检测速度慢,很难在真实场景下使用;于2019年3月22日公开的、公开号为CN109510815A的中国专利技术专利申请“一种基于有监督学习的多级钓鱼网站检测方法及检测系统”提出了一种分级的钓鱼网站检测方案。该专利的问题在于其分类器是通过提取URL和网页内容中的固定特征后利用机器学习算法训练得到的,固定的特征设计容易被攻击者探测,从而被攻击者刻意规避,降低该方法的泛化能力。

技术实现思路

[0005]本专利技术的目的在于提供一种面向URL和标签结合的泛化钓鱼网站检测方法及系统,以解决上述
技术介绍
中提出的现有的钓鱼网站检测方法存在泛用性不强的缺点,无法及时有效的发现新型的钓鱼网站,造成信息滞后无法组织钓鱼网站带来的不良影响的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种面向URL和标签结合的泛化钓鱼
网站检测方法,所述面向URL和标签结合的泛化钓鱼网站检测方法包括以下步骤:
[0007]输入待检测网站的URL;
[0008]对输入的URL进行检测,输出该URL属于钓鱼网站的概率;
[0009]下载待检测URL对应的网页,统计所述网页的HTML标签数量,利用HTML标签列表对统计结果进行向量化;
[0010]判断待检测网站是否为钓鱼网站。
[0011]优选的,若所输出的概率大于预设阈值,则进行待检测网站判断,否则进行向量化处理。
[0012]优选的,将向量化后的HTML标签序列输入到带注意力机制的双向长短时记忆网络层以提取精确的网页内容特征表示,通过全连接层进行分类,得到该URL属于钓鱼网站的概率。
[0013]优选的,对输入的URL进行检测的过程包括:对输入的待检测网站的URL进行预处理、获取URL的分布式表示、将URL的分布式表示输入到卷积

胶囊神经网络,由所述卷积

胶囊神经网络对URL属于钓鱼网站的概率进行预测计算。
[0014]优选的,对输入的URL进行检测,输出该URL属于钓鱼网站的概率包括以下步骤:
[0015]将输入的待检测网站的URL的长度通过末尾截断或补零的方式限定在某个长度,并对所有可能出现在URL中的字符赋予唯一数字编号,构建字符映射表,然后根据字符映射表将该URL的字符转换成对应的编号以得到该URL的整数向量表示;
[0016]通过从互联网爬取URL作为语料进行词嵌入训练,得到字符级别的嵌入矩阵,通过查询该嵌入矩阵,将获得的URL的整数向量表示转换成URL的分布式表示矩阵;
[0017]将URL的分布式表示矩阵输入到卷积

胶囊神经网络中,预测该URL属于钓鱼网站的概率。
[0018]一种面向URL和标签结合的泛化钓鱼网站检测系统,该系统由输入模块、检测模块、处理模块以及判断模块构成;
[0019]输入模块,输入待检测网站的URL;
[0020]检测模块,对输入的URL进行检测,输出该URL属于钓鱼网站的概率;
[0021]处理模块,下载待检测URL对应的网页,统计所述网页的HTML标签数量,利用HTML标签列表对统计结果进行向量化;
[0022]判断模块,判断待检测网站是否为钓鱼网站。
[0023]优选的,所述检测模块中,若所输出的概率大于预设阈值,则进行待检测网站判断,否则进行向量化处理。
[0024]优选的,所述处理模块中,将向量化后的HTML标签序列输入到带注意力机制的双向长短时记忆网络层以提取精确的网页内容特征表示,通过全连接层进行分类,得到该URL属于钓鱼网站的概率。
[0025]优选的,所述检测模块中,对输入的URL进行检测的过程包括:对输入的待检测网站的URL进行预处理、获取URL的分布式表示、将URL的分布式表示输入到卷积

胶囊神经网络,由所述卷积

胶囊神经网络对URL属于钓鱼网站的概率进行预测计算。
[0026]优选的,所述检测模块中,对输入的URL进行检测,输出该URL属于钓鱼网站的概率包括以下步骤:
[0027]将输入的待检测网站的URL的长度通过末尾截断或补零的方式限定在某个长度,并对所有可能出现在URL中的字符赋予唯一数字编号,构建字符映射表,然后根据字符映射表将该URL的字符转换成对应的编号以得到该URL的整数向量表示;
[0028]通过从互联网爬取URL作为语料进行词嵌入训练,得到字符级别的嵌入矩阵,通过查询该嵌入矩阵,将获得的URL的整数向量表示转换成URL的分布式表示矩阵;
[0029]将URL的分布式表示矩阵输入到卷积

胶囊神经网络中,预测该URL属于钓鱼网站的概率。
[0030]与现有技术相比,本专利技术的有益效果是:
[0031]本专利技术提出的面向URL和标签结合的泛化钓鱼网站检测方法及系统结合了网站URL和网页内容进行钓鱼网站检测,通过先使用URL级钓鱼检测模块进行检测,然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向URL和标签结合的泛化钓鱼网站检测方法,其特征在于:所述面向URL和标签结合的泛化钓鱼网站检测方法包括以下步骤:输入待检测网站的URL;对输入的URL进行检测,输出该URL属于钓鱼网站的概率;下载待检测URL对应的网页,统计所述网页的HTML标签数量,利用HTML标签列表对统计结果进行向量化;判断待检测网站是否为钓鱼网站。2.根据权利要求1所述的一种面向URL和标签结合的泛化钓鱼网站检测方法,其特征在于:若所输出的概率大于预设阈值,则进行待检测网站判断,否则进行向量化处理。3.根据权利要求2所述的一种面向URL和标签结合的泛化钓鱼网站检测方法,其特征在于:将向量化后的HTML标签序列输入到带注意力机制的双向长短时记忆网络层以提取精确的网页内容特征表示,通过全连接层进行分类,得到该URL属于钓鱼网站的概率。4.根据权利要求3所述的一种面向URL和标签结合的泛化钓鱼网站检测方法,其特征在于:对输入的URL进行检测的过程包括:对输入的待检测网站的URL进行预处理、获取URL的分布式表示、将URL的分布式表示输入到卷积

胶囊神经网络,由所述卷积

胶囊神经网络对URL属于钓鱼网站的概率进行预测计算。5.根据权利要求4所述的一种面向URL和标签结合的泛化钓鱼网站检测方法,其特征在于:对输入的URL进行检测,输出该URL属于钓鱼网站的概率包括以下步骤:将输入的待检测网站的URL的长度通过末尾截断或补零的方式限定在某个长度,并对所有可能出现在URL中的字符赋予唯一数字编号,构建字符映射表,然后根据字符映射表将该URL的字符转换成对应的编号以得到该URL的整数向量表示;通过从互联网爬取URL作为语料进行词嵌入训练,得到字符级别的嵌入矩阵,通过查询该嵌入矩阵,将获得的URL的整数向量表示转换成URL的分布式表示矩阵;将URL的分布式表示矩阵输入到卷积

胶囊神经网络中,预测该URL属于钓鱼网站的概率。6.一种如上述权利要求1

5任意一项所述的面向URL和标签结合的泛...

【专利技术属性】
技术研发人员:李玥峰高传集孙思清
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1