当前位置: 首页 > 专利查询>汕头大学专利>正文

基于URL语义特征的钓鱼网站检测方法、系统及设备技术方案

技术编号:42494493 阅读:37 留言:0更新日期:2024-08-21 13:12
本发明专利技术公开一种基于URL语义特征的钓鱼网站检测方法、系统、设备及存储介质,其中所述方法包括:获取源域数据集和目标域数据集,源域数据集包括携带分类标签的多个源URL数据,目标域数据集包括未携带分类标签的多个目标URL数据;基于交叉熵损失函数、源域数据集和目标域数据集,对获取的钓鱼网站检测模型进行预训练;基于由交叉熵损失函数以及联合全局特征和局部特征的余弦相似度损失函数组成的总损失函数、源域数据集和目标域数据集,对预训练后的钓鱼网站检测模型进行正式训练,且在正式训练完毕时输出每个目标URL数据的预测分类标签。本发明专利技术可以有效提高钓鱼网站检测的准确可靠性,并且可以在不同域数据集上进行迁移学习。

【技术实现步骤摘要】

本专利技术涉及计算机,具体是涉及一种基于url语义特征的钓鱼网站检测方法、系统、设备及存储介质。


技术介绍

1、钓鱼网站检测的主要任务是将恶意的钓鱼网站与正常的合法网站区分开来,以及时发现并阻止网络钓鱼攻击的发生,从而保护用户的隐私和合法财产。然而现有的钓鱼网站检测技术更多依赖于手动构建的工程特征,这些工程特征的标准和质量在不同域的数据集中存在差异性,导致训练出来的模型在这些数据集上的泛化能力不足,加上模型并不重视url语义特征的提取与使用,导致训练出来的模型所具备的预测分类性能并不可靠。


技术实现思路

1、本专利技术提供一种基于url语义特征的钓鱼网站检测方法、系统、设备及存储介质,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。

2、第一方面,提供一种基于url语义特征的钓鱼网站检测方法,包括:

3、获取源域数据集和目标域数据集,所述源域数据集包括携带分类标签的多个源url数据,所述目标域数据集包括未携带分类标签的多个目标url数据

4、本文档来自技高网...

【技术保护点】

1.一种基于URL语义特征的钓鱼网站检测方法,其特征在于,包括:

2.根据权利要求1所述的基于URL语义特征的钓鱼网站检测方法,其特征在于,所述特征提取器采用RoBERTa模型,其包括Transformer编码器;

3.根据权利要求2所述的基于URL语义特征的钓鱼网站检测方法,其特征在于,所述分类器采用MLP分类器,其包括顺次连接的第一全连接层、第二全连接层和Softmax层,且在两个全连接层之间设置ReLU激活函数;

4.根据权利要求1所述的基于URL语义特征的钓鱼网站检测方法,其特征在于,所述基于交叉熵损失函数、所述源域数据集和所述目标域数据集,对...

【技术特征摘要】

1.一种基于url语义特征的钓鱼网站检测方法,其特征在于,包括:

2.根据权利要求1所述的基于url语义特征的钓鱼网站检测方法,其特征在于,所述特征提取器采用roberta模型,其包括transformer编码器;

3.根据权利要求2所述的基于url语义特征的钓鱼网站检测方法,其特征在于,所述分类器采用mlp分类器,其包括顺次连接的第一全连接层、第二全连接层和softmax层,且在两个全连接层之间设置relu激活函数;

4.根据权利要求1所述的基于url语义特征的钓鱼网站检测方法,其特征在于,所述基于交叉熵损失函数、所述源域数据集和所述目标域数据集,对所述钓鱼网站检测模型进行预训练包括:

5.根据权利要求4所述的基于url语义特征的钓鱼网站检测方法,其特征在于,所述基于总损失函数、所述源域数据集和所述目标域数据集,对预训练后的钓鱼网站检...

【专利技术属性】
技术研发人员:许建龙麦旭鹏熊智蔡浩
申请(专利权)人:汕头大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1