一种基于多模态融合的诈骗网站识别方法及装置制造方法及图纸

技术编号：38766365 阅读：12 留言：0更新日期：2023-09-10 10:39

本发明专利技术公开了一种基于多模态融合的诈骗网站识别方法及装置，利用交叉验证思想，对BERT模型、ResNet残差网络模型及逻辑回归模型等多个学习能力强、差异度大的基分类器进行训练，并分别对文本、图像、URL特征进行识别。基分类器识别结果作为元分类器的输入，利用Stacking集成学习思想，结合文本、图像、URL等多个模态的融合，最终将元分类器的输出作为最终的预测识别结果。本发明专利技术从不同空间角度与数据角度构建基分类器，充分的考虑各模态间的差别，取长补短，最后通过元分类器进行Stacking集成，提高方法的泛化能力，使其能够有效过滤干扰信息，识别隐藏诈骗信息，提高诈骗网站识别准确率。别准确率。别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态融合的诈骗网站识别方法及装置

[0001]本专利技术属于互联网信息安全
，特别涉及一种基于多模态融合的诈骗网站识别方法及装置。

技术介绍

[0002]国内外与本专利技术方法相关研究主要集中在：1)传统诈骗网站识别方法；2)单一模态的深度学习诈骗网站识别方法；3)多模态的诈骗网站识别方法。
[0003]传统诈骗网站识别方法
[0004]目前诈骗网站识别方法主要有3种：基于黑白名单技术的识别方法、基于启发式规则的识别方法及基于机器学习的识别方法。基于黑白名单技术的识别方法检测速度快、易实现，但黑白名单需经常更新，而且之前未出现过的诈骗网站无法识别。基于启发式规则的识别方法通过诈骗网站之间的相似性设计启发式规则，其可识别之前未出现的诈骗网站，但误报率较高。对此研究人员提出基于机器学习的识别方法。杨鹏等人根据提取的URL特征、HTML特征和网页文本向量特征，结合逻辑回归把高维与稀疏的文本特征转换成概率特征，建立XGBo ost网站分类模型，大大提高了识别精度(杨鹏,曾朋,赵广振,等.基于Logistic回归和XGBoost的钓鱼网站检测方法[J].东南大学学报(自然科学版),2019,49(02):207
‑
212.)。胡向东等人提取页面标志图像特征与正规网站进行相似度匹配，判断是否为仿冒网站(胡向东,刘可,张峰,等.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(02):35
‑
42.)。
[0005]单一模态

【技术保护点】

【技术特征摘要】
1.一种基于多模态融合的诈骗网站识别方法，其特征在于，该方法包括以下步骤：(1)获取诈骗网站图像模态特征、诈骗网站文本模态特征、诈骗网站URL模态特征作为样本并获取样本对应的类标签，构建训练集；(2)构建三个基分类器，分别对文本模态、图像模态和URL模态进行识别；并通过训练集对基分类器训练；(3)构建元分类器，将基分类器的预测值基于类标签组合得到新的特征向量集合，作为元分类器的训练样本集，对元分类器训练；(4)将训练好的三个基分类器和元分类器结合，构建多模态融合的诈骗网站识别模型，将获取的诈骗网站图像特征、诈骗网站文本特征、诈骗网站URL特征作为模型输入，得到诈骗网站的识别结果。2.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法，其特征在于，将步骤(1)中的训练集分成K份，通过K折交叉验证的方式对三个基分类器进行训练。3.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法，其特征在于，步骤(2)中，对文本模态识别具体过程如下：1)对训练集中的文本数据进行分词、去停用词预处理；2)构建BERT模型并进行预训练；3)BERT模型获得的语义特征输入至Softmax模型完成文本模态分类。4.根据权利要求1所述的一种基于多模态融合的诈骗网站识别方法，其特征在于，步骤(2)中，对图像模态识别具体过程如下：1)通过ResNet网络进行图片特征提取；2)利用I...

【专利技术属性】
技术研发人员：陈镜宇，周胜利，
申请(专利权)人：浙江警察学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人