一种钓鱼邮件检测方法、装置、设备及存储介质制造方法及图纸

技术编号:33531569 阅读:15 留言:0更新日期:2022-05-19 02:03
本发明专利技术公开了一种钓鱼邮件检测方法、装置、设备及存储介质,该方法包括:获取邮件数据集,提取邮件数据集中各邮件的多维度特征得到特征数据集,获取特征数据集中部分多维度特征为训练集;采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在训练集上预测得到的预测结果,并基于预测结果训练分类器得到元分类器;将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至元分类器得到待检测邮件是否为钓鱼邮件的总检测结果。本申请能够提高邮件检测的鲁棒性和泛化性,进而有效提高邮件检测的准确性。邮件检测的准确性。邮件检测的准确性。

【技术实现步骤摘要】
一种钓鱼邮件检测方法、装置、设备及存储介质


[0001]本专利技术涉及信息检测
,更具体地说,涉及一种钓鱼邮件检测方法、装置、设备及存储介质。

技术介绍

[0002]邮件系统作为互联网的重要基础设施之一,在早期设计SMTP(Simple Mail Transfer Protocol,简单邮件传输协议)、POP3(Post Office Protocol

Version 3,邮局协议版本3)和IMAP(Internet Message Access Protocol,因特网消息访问协议)等协议时,协议和服务的安全性考虑不足,导致垃圾邮件泛滥成灾。DKIM(Domain Keys Identified Mail,域名密钥识别邮件标准)和SPF(Sender Policy Framework,发送方策略框架)被设计用于解决邮件授权和认证的问题,缓解了垃圾邮件泛滥的问题。随着安全检测技术和安全设备的发展,大大地增强了企业的服务和应用的防御能力;因此钓鱼邮件作为一种基于社会工程学原理的攻击手段,开始逐渐被越来越多的恶意攻击者所采用,用于入侵计算机系统、窃取敏感数据等行为。
[0003]钓鱼邮件通常是黑客精心构造的邮件,其目的在于诱骗收件人去点击邮件的恶意链接或者下载恶意附件;因此,钓鱼邮件通常具有良好的伪装,让收件人难辨真伪,同时也具有强烈的诱导性,而如何提供一种能够实现钓鱼邮件检测的技术方案,是目前本领域技术人员亟待解决的问题。

技术实现思路

[0004]本专利技术的目的是提供一种钓鱼邮件检测方法、装置、设备及存储介质,能够提高邮件检测的鲁棒性和泛化性,进而有效提高邮件检测的准确性。
[0005]为了实现上述目的,本专利技术提供如下技术方案:
[0006]一种钓鱼邮件检测方法,包括:
[0007]获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;
[0008]采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;
[0009]将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。
[0010]优选的,提取所述邮件数据集中各邮件的多维度特征,包括:
[0011]对所述邮件数据集中的各邮件分别进行解析,以提取所述邮件数据集中各邮件包含的字段数据,并从所述字段数据中提取各邮件的域名特征、链接特征、邮件文本特征及邮
件附件特征作为相应的多维度特征。
[0012]优选的,提取所述邮件数据集中各邮件的多维度特征之后,还包括:
[0013]对提取的所述邮件数据集中各邮件的多维度特征进行缺失值填充处理,并对完成缺失值填充处理的多维度特征进行标准化处理。
[0014]优选的,训练得到每个所述基分类器及所述元分类器之后,还包括:
[0015]通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优。
[0016]优选的,通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优之后,还包括:
[0017]在所述训练集上对每个所述基分类器进行训练,并基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练。
[0018]优选的,基于所述特征数据集中得到训练集,包括:
[0019]将所述特征数据集分为训练集及测试集;
[0020]相应的,基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练之后,还包括:
[0021]利用每个所述基分类器在所述测试集上进行测试,并基于利用每个所述基分类器在所述测试集上进行测试时的预测结果对所述元分类器进行测试,得到相应的准确率及误报率,如果所述准确率及所述误报率符合要求,则确定完成分类器的训练,否则,输出相应的错误提示。
[0022]优选的,所述域名特征包括相应邮件中发件人、收件人和所有链接中的域名信息,所述链接特征包括相应邮件中所有链接的字符串,所述邮件文本特征包括相应邮件中邮件标题及邮件正文的内容,所述邮件附件特征包括相应邮件的附件在运行时的网络行为信息。
[0023]一种钓鱼邮件检测装置,包括:
[0024]提取模块,用于:获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;
[0025]训练模块,用于:采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;
[0026]检测模块,用于:将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。
[0027]一种钓鱼邮件检测设备,包括:
[0028]存储器,用于存储计算机程序;
[0029]处理器,用于执行所述计算机程序时实现如上任一项所述钓鱼邮件检测方法的步骤。
[0030]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述钓鱼邮件检测方法的步骤。
[0031]本专利技术提供了一种钓鱼邮件检测方法、装置、设备及存储介质,该方法包括:获取
邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。本申请获取邮件数据集,提取邮件数据集中各邮件的多维度特征得到特征数据集,获取特征数据集中包含的训练集,采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器以及每个基分类器在训练集上预测得到的预测结果,利用上述预测结果训练分类器得到元分类器,进而在实现任意邮件是否为钓鱼邮件的检测时,将该任意邮件的多维度特征中每个维度的特征分别输入相应的基分类器得到多个子预测结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种钓鱼邮件检测方法,其特征在于,包括:获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。2.根据权利要求1所述的方法,其特征在于,提取所述邮件数据集中各邮件的多维度特征,包括:对所述邮件数据集中的各邮件分别进行解析,以提取所述邮件数据集中各邮件包含的字段数据,并从所述字段数据中提取各邮件的域名特征、链接特征、邮件文本特征及邮件附件特征作为相应的多维度特征。3.根据权利要求2所述的方法,其特征在于,提取所述邮件数据集中各邮件的多维度特征之后,还包括:对提取的所述邮件数据集中各邮件的多维度特征进行缺失值填充处理,并对完成缺失值填充处理的多维度特征进行标准化处理。4.根据权利要求3所述的方法,其特征在于,训练得到每个所述基分类器及所述元分类器之后,还包括:通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优。5.根据权利要求4所述的方法,其特征在于,通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优之后,还包括:在所述训练集上对每个所述基分类器进行训练,并基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练。6.根据权利要求5所述的方法,其特征在于,基于所述特征数据集中得到训练集,包括:将所述特征数据集分为训练集及测试集;相应的,...

【专利技术属性】
技术研发人员:黄章镕范渊刘博
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1