System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种钓鱼网站检测方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>暨南大学专利>正文

一种钓鱼网站检测方法及装置制造方法及图纸

技术编号:40837290 阅读:3 留言:0更新日期:2024-04-01 15:02
本发明专利技术公开一种钓鱼网站检测方法,包括如下步骤:对待测网站的URL和域名信息进行预处理,得到特征矩阵;对所述特征矩阵进行特征提取,得到上下文特征序列以及多尺度特征序列;将所述上下文特征序列以及多尺度特征序列进行融合,得到组合序列;根据所述组合序列,确定待测网站的钓鱼检测结果。本发明专利技术能够提高钓鱼网站检测的准确性。

【技术实现步骤摘要】

本专利技术涉及网络检测领域,尤其涉及一种钓鱼网站检测方法及装置


技术介绍

1、网络钓鱼(phishing)是一种针对个人和组织的网络欺诈手段,旨在通过伪装成合法和可信的实体,诱使受害者揭露个人敏感信息或执行恶意操作。钓鱼攻击通常通过电子邮件、短信、社交媒体消息等方式进行,它们伪装成著名品牌、银行、在线服务提供商或其他机构,通过诱骗、恐吓或利益诱惑来欺骗受害者。

2、网络钓鱼检测(phishing detection)是一种用于识别和防御网络钓鱼攻击的技术和方法。它旨在检测出可能存在的钓鱼网站、欺诈链接或诱骗性信息,以保护用户免受欺骗和信息泄露的风险。网络钓鱼攻击者通常利用构建的虚假网站,试图非法获取用户的敏感信息,甚至直接盗取财产。具体地说,钓鱼攻击者利用品牌网站的知名度以及用户对品牌的信任感,引诱用户在与品牌合法网站相似的伪造网站上输入个人敏感信息,以此达到获利目的。

3、现阶段的网络钓鱼检测工作已经取得了一些研究成果,并应用了多种多样的技术,包括黑名单、启发式和视觉相似性等。许多用于网络钓鱼检测的钓鱼网站检测方法在过去被证明在很大程度上是有效的,但随着钓鱼网站攻击方式的不断更新和变化,它们已经不能完全适应,准确性和精确度有待提高。此外,随着人工智能技术的发展,钓鱼攻击者可以利用机器学习等技术对钓鱼网站进行更加高级的伪装和攻击,这给现阶段用于网络钓鱼检测的钓鱼网站检测方法带来了新的挑战。

4、以下是现阶段,钓鱼网络检测技术中尚存的不足:

5、1.传统方法依赖手工提取特征,可能导致信息损失或无法处理潜在重要特征;

6、2.传统方法在处理url时可能丢失语义信息,忽视了url中的语义关系;

7、3.钓鱼网站检测模型的泛化能力有待提高,尤其是在应对对抗性黑盒网络钓鱼攻击时的误报率问题;

8、4.基于深度学习模型的钓鱼检测技术在处理url时受限于输入维度的单一性,难以充分提取钓鱼网站的完整属性。


技术实现思路

1、本专利技术为克服上述现有技术的缺陷,提供一种钓鱼网站检测方法及装置,能够提高钓鱼网站检测的准确性。

2、本专利技术一实施例提供一种钓鱼网站检测方法,包括如下步骤:

3、对待测网站的url和域名信息进行预处理,得到特征矩阵;

4、对所述特征矩阵进行特征提取,得到上下文特征序列以及多尺度特征序列;

5、将所述上下文特征序列以及多尺度特征序列进行融合,得到组合序列;

6、根据所述组合序列,确定待测网站的钓鱼检测结果。

7、进一步的,所述对待测网站的url和域名信息进行预处理,得到特征矩阵,具体包括:

8、将所述url和域名信息转换为若干个字符元素序列;

9、统一所述若干个字符元素序列的长度为预设长度,分别将每个所述字符元素序列中超过预设长度的部分去除,不足预设长度的部分补0,最终对应得到若干个统一字符元素序列;

10、按照独热编码模式,将所述若干个统一字符元素序列进行映射,得到所述特征矩阵。

11、进一步的,所述对所述特征矩阵进行特征提取,得到上下文特征序列以及多尺度特征序列,具体包括:

12、将所述特征矩阵输入至预设配备注意力机制的双向lstm模型,得到所述上下文特征序列;

13、将所述特征矩阵输入至预设多尺度cnn模型,得到所述多尺度特征序列。

14、优选的,所述将所述特征矩阵输入至预设双向lstm模型,得到所述上下文特征序列,具体包括:

15、将所述特征矩阵输入至前向lstm模型与后向lstm模型,分别输出得到前向隐状态序列与后向隐状态序列;

16、将所述前向隐状态序列与后向隐状态序列进行拼接,得到隐状态矩阵;

17、对所述隐状态矩阵进行非线性变换得到中间矩阵,并根据所述中间矩阵计算注意力权重;

18、根据所述注意力权重对所述隐状态矩阵进行加权求和,得到所述上下文特征序列。

19、优选的,其特征在于,所述将所述特征矩阵输入至预设多尺度cnn模型,得到所述多尺度特征序列,具体包括:

20、所述多尺度cnn模型包括卷积层以及池化层,所述卷积层中包括三个并行的卷积块且所述卷积层中使用的激活函数为relu函数;

21、分别向所述三个卷积块中输入所述特征矩阵,得到三个卷积矩阵,随后将所述三个卷积矩阵输入至池化层,对应得到三个池化矩阵;

22、将所述三个池化矩阵进行拼接,得到所述多尺度特征序列。

23、进一步的,所述将所述上下文特征序列以及多尺度特征序列进行融合,得到组合序列,具体包括:

24、将所述上下文特征序列以及所述多尺度特征序列进行顺序拼接组合,得到组合序列;其中,所述组合序列的长度为所述上下文特征序列的长度与所述多尺度特征序列的长度之和。

25、进一步的,所述根据所述组合序列,确定待测网站的钓鱼检测结果,具体包括:

26、根据预设训练集,以最小化预设损失函数为优化目标优化权重矩阵以及偏置项,得到最优权重矩阵以及最优偏置项;其中,所述预设损失函数为:

27、

28、其中,n为训练集的数据总量,y(i)为训练集中包含的真实值,x(i)为训练集中包含的训练数据,f(·)表示前向传播过程,σ(·)为sigmoid函数,θ为输入数据,包括所述权重矩阵以及偏置项;

29、将所述最优权重矩阵、最优偏置项以及所述组合序列代入预设输出函数,计算得到最优检测解,并根据所述最优检测解确定待测网站的钓鱼检测结果;其中,所述预设输出函数为:

30、y=softmax(wo+b);

31、其中,y为预测值且y∈[0,1],当y越趋近于1时,表示待测网站为钓鱼网站的概率越大,w为所述最优权重矩阵,o为所述组合序列,b为所述最优偏置项。

32、本专利技术另一实施例提供一种钓鱼网站检测装置,包括:特征构建模块、特征提取模块、特征组合模块以及结果预测模块;

33、所述特征构建模块用于对待测网站的url和域名信息进行预处理,得到特征矩阵;

34、所述特征提取模块用于对所述特征矩阵进行特征提取,得到上下文特征序列以及多尺度特征序列;

35、所述特征组合模块用于将所述上下文特征序列以及多尺度特征序列进行融合,得到组合序列;

36、所述结果预测模块用于根据所述组合序列,确定待测网站的钓鱼检测结果。

37、进一步的,所述特征构建模块用于对待测网站的url和域名信息进行预处理,得到特征矩阵,具体包括:

38、将所述url和域名信息转换为若干个字符元素序列;

39、统一所述若干个字符元素序列的长度为预设长度,分别将每个所述字符元素序列中超过预设长度的部分去除,不足预设长度的部分补0,最终对应得到若干个统一字符元素序列;

40、按本文档来自技高网...

【技术保护点】

1.一种钓鱼网站检测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述对待测网站的URL和域名信息进行预处理,得到特征矩阵,具体包括:

3.如权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述对所述特征矩阵进行特征提取,得到上下文特征序列以及多尺度特征序列,具体包括:

4.如权利要求3所述的一种钓鱼网站检测方法,其特征在于,所述将所述特征矩阵输入至预设双向LSTM模型,得到所述上下文特征序列,具体包括:

5.如权利要求3所述的一种钓鱼网站检测方法,其特征在于,所述将所述特征矩阵输入至预设多尺度CNN模型,得到所述多尺度特征序列,具体包括:

6.如权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述将所述上下文特征序列以及多尺度特征序列进行融合,得到组合序列,具体包括:

7.如权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述根据所述组合序列,确定待测网站的钓鱼检测结果,具体包括:

8.一种钓鱼网站检测装置,其特征在于,包括:特征构建模块、特征提取模块、特征组合模块以及结果预测模块;

9.如权利要求8所述的一种钓鱼网站检测装置,其特征在于,所述特征构建模块用于对待测网站的URL和域名信息进行预处理,得到特征矩阵,具体包括:

10.如权利要求8所述的一种钓鱼网站检测装置,其特征在于,所述特征提取模块用于对所述特征矩阵进行特征提取,得到上下文特征序列以及多尺度特征序列,具体包括:

...

【技术特征摘要】

1.一种钓鱼网站检测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述对待测网站的url和域名信息进行预处理,得到特征矩阵,具体包括:

3.如权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述对所述特征矩阵进行特征提取,得到上下文特征序列以及多尺度特征序列,具体包括:

4.如权利要求3所述的一种钓鱼网站检测方法,其特征在于,所述将所述特征矩阵输入至预设双向lstm模型,得到所述上下文特征序列,具体包括:

5.如权利要求3所述的一种钓鱼网站检测方法,其特征在于,所述将所述特征矩阵输入至预设多尺度cnn模型,得到所述多尺度特征序列,具体包括:

6.如权利要求1所述的一...

【专利技术属性】
技术研发人员:刘东杰耿光刚孔凯传陈诗涵琚诗琪延志伟吴秀诚
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1