一种钓鱼邮件检测方法、装置、设备及存储介质制造方法及图纸

技术编号:33531569 阅读:33 留言:0更新日期:2022-05-19 02:03
本发明专利技术公开了一种钓鱼邮件检测方法、装置、设备及存储介质,该方法包括:获取邮件数据集,提取邮件数据集中各邮件的多维度特征得到特征数据集,获取特征数据集中部分多维度特征为训练集;采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在训练集上预测得到的预测结果,并基于预测结果训练分类器得到元分类器;将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至元分类器得到待检测邮件是否为钓鱼邮件的总检测结果。本申请能够提高邮件检测的鲁棒性和泛化性,进而有效提高邮件检测的准确性。邮件检测的准确性。邮件检测的准确性。

【技术实现步骤摘要】
一种钓鱼邮件检测方法、装置、设备及存储介质


[0001]本专利技术涉及信息检测
,更具体地说,涉及一种钓鱼邮件检测方法、装置、设备及存储介质。

技术介绍

[0002]邮件系统作为互联网的重要基础设施之一,在早期设计SMTP(Simple Mail Transfer Protocol,简单邮件传输协议)、POP3(Post Office Protocol

Version 3,邮局协议版本3)和IMAP(Internet Message Access Protocol,因特网消息访问协议)等协议时,协议和服务的安全性考虑不足,导致垃圾邮件泛滥成灾。DKIM(Domain Keys Identified Mail,域名密钥识别邮件标准)和SPF(Sender Policy Framework,发送方策略框架)被设计用于解决邮件授权和认证的问题,缓解了垃圾邮件泛滥的问题。随着安全检测技术和安全设备的发展,大大地增强了企业的服务和应用的防御能力;因此钓鱼邮件作为一种基于社会工程学原理的攻击手段,开始逐渐被越来越多的恶意攻击者所采本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种钓鱼邮件检测方法,其特征在于,包括:获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。2.根据权利要求1所述的方法,其特征在于,提取所述邮件数据集中各邮件的多维度特征,包括:对所述邮件数据集中的各邮件分别进行解析,以提取所述邮件数据集中各邮件包含的字段数据,并从所述字段数据中提取各邮件的域名特征、链接特征、邮件文本特征及邮件附件特征作为相应的多维度特征。3.根据权利要求2所述的方法,其特征在于,提取所述邮件数据集中各邮件的多维度特征之后,还包括:对提取的所述邮件数据集中各邮件的多维度特征进行缺失值填充处理,并对完成缺失值填充处理的多维度特征进行标准化处理。4.根据权利要求3所述的方法,其特征在于,训练得到每个所述基分类器及所述元分类器之后,还包括:通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优。5.根据权利要求4所述的方法,其特征在于,通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优之后,还包括:在所述训练集上对每个所述基分类器进行训练,并基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练。6.根据权利要求5所述的方法,其特征在于,基于所述特征数据集中得到训练集,包括:将所述特征数据集分为训练集及测试集;相应的,...

【专利技术属性】
技术研发人员:黄章镕范渊刘博
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1