一种基于链接特征分析的钓鱼邮件检测方法及系统技术方案

技术编号:19828379 阅读:29 留言:0更新日期:2018-12-19 16:57
本发明专利技术提供了一种基于链接特征分析的钓鱼邮件检测方法及系统,包括:获取待检测邮件的内容中的链接;按照预设过滤方式对链接进行过滤处理,得到过滤后的链接;提取过滤后的链接的预设链接特征,对预设链接特征进行向量化处理,得到链接特征向量;通过预设分类模型对链接特征向量进行类型检测,检测得到待检测邮件是否为钓鱼邮件。在本发明专利技术中,进行预设链接特征提取时,提取的是过滤后的链接,减少了系统资源的浪费,提高了检测效率,另外,提取的预设链接特征能够很好的区分钓鱼邮件和非钓鱼邮件,所以在基于预设链接特征进行钓鱼邮件检测时,准确性好,识别度高,缓解了现有的钓鱼邮件检测方法检测效率低下,准确性差的技术问题。

【技术实现步骤摘要】
一种基于链接特征分析的钓鱼邮件检测方法及系统
本专利技术涉及信息安全的
,尤其是涉及一种基于链接特征分析的钓鱼邮件检测方法及系统。
技术介绍
钓鱼邮件主要是在邮件中呈现具有误导性质的链接,该链接指向恶意网页,点击了邮件中的链接并输入密码或者隐私信息,就会造成隐私泄露。现有技术在对钓鱼邮件进行检测时,先使用邮件解析器对邮件进行解析;利用正则表达式提取邮件中的网站链接;再次利用正则表达式算法提取链接中的相关特征;利用域名注册检索引擎,得到网站注册时间特征。运用这些所提取的文本特征(包括相关特征,网站注册时间特征)组成邮件的特征向量,输入到支持向量机模型(SVM)中进行钓鱼邮件的识别。现有技术在提取网站链接,然后进行相关特征的提取时,提取的是所有链接。在实际的使用环境中,一封邮件可能存在着几十个特征相近的链接,所以这一过程就会造成重复检测从而使得系统资源的浪费;另外,提取的相关特征不仅在钓鱼邮件中存在,而且这些相关特征在正常邮件中也存在,所以当基于这些相关特征对钓鱼邮件进行识别时,往往容易产生误报。综上,现有的钓鱼邮件检测方法存在效率低下,准确性差的技术问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于链接特征分析的钓鱼邮件检测方法及系统,以缓解现有的钓鱼邮件检测方法检测效率低下,准确性差的技术问题。第一方面,本专利技术实施例提供了一种基于链接特征分析的钓鱼邮件检测方法,包括:获取待检测邮件的内容中的链接;按照预设过滤方式对所述链接进行过滤处理,得到过滤后的链接;提取所述过滤后的链接的预设链接特征,并对所述预设链接特征进行向量化处理,得到所述待检测邮件的链接特征向量,其中,所述预设链接特征用于区分钓鱼邮件和非钓鱼邮件;通过预设分类模型对所述链接特征向量进行类型检测,检测得到所述待检测邮件是否为钓鱼邮件。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,获取待检测邮件的内容中的链接包括:获取所述待检测邮件;根据多用途互联网邮件扩展类型标准对所述待检测邮件进行解析,得到所述待检测邮件的发件人邮箱域名和所述待检测邮件的内容;提取所述待检测邮件的内容中的链接,进而得到所述待检测邮件的内容中的链接。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,获取所述待检测邮件包括:在网络流量中提取邮件数据流,其中,所述邮件数据流至少包括:POP协议的数据流,SMTP协议的数据流,IMAP协议的数据流;对所述邮件数据流进行解析,进而得到邮件格式的待检测邮件;或者,在邮件格式的文件中读取所述待检测邮件。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,提取所述待检测邮件的内容中的链接包括:判断所述待检测邮件的格式类型;如果所述格式类型为HTML格式类型,则根据HTML标准提取标签a中的链接和标签area中的链接,并将所述标签a中的链接和所述标签area中的链接作为所述待检测邮件的内容中的链接;如果所述格式类型为文本格式类型,则采用正则表达式提取所述待检测邮件的内容中的链接。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,按照预设过滤方式对所述链接进行过滤处理包括:在所述链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接,得到第一过滤后的链接;在所述第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接,得到第二过滤后的链接,并将与所述预设域名白名单中的域名相同的域名保存至所述自身邮件白名单;在所述第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接,得到第三过滤后的链接,并将与所述Alexa白名单中的域名相同的域名保存至所述自身邮件白名单;在所述第三过滤后的链接中过滤出与所述发件人邮箱域名不同的域名所对应的链接,进而得到所述过滤后的链接,并将与所述发件人邮箱域名相同的域名和所述过滤后的链接的域名保存至所述自身邮件白名单。结合第一方面,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,提取所述过滤后的链接的预设链接特征包括:确定所述过滤后的链接的域名是否使用IP,得到是否使用IP的特征;确定所述IP是否不属于预设局域网段IP,得到是否不属于所述预设局域网段IP的特征;确定所述过滤后的链接的域名是否与文本描述的链接域名不符,得到是否与所述文本描述的链接域名不符的特征;确定所述过滤后的链接的域名是否超过四级,得到是否超过四级的特征;确定所述过滤后的链接的域名中字母分布频率与正常网站的域名中字母分布频率的差值是否大于预设阈值,得到是否大于预设阈值的特征;确定所述过滤后的链接的域名是否与所述发件人邮箱域名不一致,且所述发件人邮箱域名是否为所述过滤后的链接的域名的子串,得到是否与所述发件人邮箱域名不一致且所述发件人邮箱域名是否为所述过滤后的链接的域名的子串的特征;确定所述过滤后的链接是否存在预设网页脚本关键字和邮箱账号,得到是否存在所述预设网页脚本关键字和所述邮箱账号的特征。结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,对所述预设链接特征进行向量化处理包括:对所述是否使用IP的特征,所述是否不属于所述预设局域网段IP的特征,所述是否与所述文本描述的链接域名不符的特征,所述是否超过四级的特征,所述是否大于预设阈值的特征,所述是否与所述发件人邮箱域名不一致且所述发件人邮箱域名是否为所述过滤后的链接的域名的子串的特征,所述是否存在所述预设网页脚本关键字和所述邮箱账号的特征分别进行0或1向量化处理,得到所述待检测邮件的链接特征向量。结合第一方面,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,通过预设分类模型对所述链接特征向量进行类型检测包括:将所述链接特征向量输入至所述预设分类模型,其中,所述预设分类模型包括以下任一种:朴素贝叶斯分类模型,支持向量机模型;输出得到数值结果,其中,所述数值结果用于表征所述待检测邮件是否为钓鱼邮件;将所述数值结果与预设边界阈值进行对比,并根据对比结果确定所述待检测邮件是否为钓鱼邮件,其中,所述预设边界阈值为是否为钓鱼邮件的边界值。第二方面,本专利技术实施例还提供了一种基于链接特征分析的钓鱼邮件检测系统,包括:获取模块,用于获取待检测邮件的内容中的链接;过滤模块,用于按照预设过滤方式对所述链接进行过滤处理,得到过滤后的链接;提取模块,用于提取所述过滤后的链接的预设链接特征,并对所述预设链接特征进行向量化处理,得到所述待检测邮件的链接特征向量,其中,所述预设链接特征用于区分钓鱼邮件和非钓鱼邮件;类型检测模块,用于通过预设分类模型对所述链接特征向量进行类型检测,检测得到所述待检测邮件是否为钓鱼邮件。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述获取模块包括:获取单元,用于获取所述待检测邮件;解析单元,用于根据多用途互联网邮件扩展类型标准对所述待检测邮件进行解析,得到所述待检测邮件的发件人邮箱域名和所述待检测邮件的内容;提取单元,用于提取所述待检测邮件的内容中的链接,进而得到所述待检测邮件的内容中的链接。本专利技术实施例带来了以下有益效果:在本实施例中,先获取待检测邮件的内容中的链接;然后,按照预设过滤方式对链接进行过滤处理,得本文档来自技高网...

【技术保护点】
1.一种基于链接特征分析的钓鱼邮件检测方法,其特征在于,包括:获取待检测邮件的内容中的链接;按照预设过滤方式对所述链接进行过滤处理,得到过滤后的链接;提取所述过滤后的链接的预设链接特征,并对所述预设链接特征进行向量化处理,得到所述待检测邮件的链接特征向量,其中,所述预设链接特征用于区分钓鱼邮件和非钓鱼邮件;通过预设分类模型对所述链接特征向量进行类型检测,检测得到所述待检测邮件是否为钓鱼邮件。

【技术特征摘要】
1.一种基于链接特征分析的钓鱼邮件检测方法,其特征在于,包括:获取待检测邮件的内容中的链接;按照预设过滤方式对所述链接进行过滤处理,得到过滤后的链接;提取所述过滤后的链接的预设链接特征,并对所述预设链接特征进行向量化处理,得到所述待检测邮件的链接特征向量,其中,所述预设链接特征用于区分钓鱼邮件和非钓鱼邮件;通过预设分类模型对所述链接特征向量进行类型检测,检测得到所述待检测邮件是否为钓鱼邮件。2.根据权利要求1所述的方法,其特征在于,获取待检测邮件的内容中的链接包括:获取所述待检测邮件;根据多用途互联网邮件扩展类型标准对所述待检测邮件进行解析,得到所述待检测邮件的发件人邮箱域名和所述待检测邮件的内容;提取所述待检测邮件的内容中的链接,进而得到所述待检测邮件的内容中的链接。3.根据权利要求2所述的方法,其特征在于,获取所述待检测邮件包括:在网络流量中提取邮件数据流,其中,所述邮件数据流至少包括:POP协议的数据流,SMTP协议的数据流,IMAP协议的数据流;对所述邮件数据流进行解析,进而得到邮件格式的待检测邮件;或者,在邮件格式的文件中读取所述待检测邮件。4.根据权利要求2所述的方法,其特征在于,提取所述待检测邮件的内容中的链接包括:判断所述待检测邮件的格式类型;如果所述格式类型为HTML格式类型,则根据HTML标准提取标签a中的链接和标签area中的链接,并将所述标签a中的链接和所述标签area中的链接作为所述待检测邮件的内容中的链接;如果所述格式类型为文本格式类型,则采用正则表达式提取所述待检测邮件的内容中的链接。5.根据权利要求2所述的方法,其特征在于,按照预设过滤方式对所述链接进行过滤处理包括:在所述链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接,得到第一过滤后的链接;在所述第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接,得到第二过滤后的链接,并将与所述预设域名白名单中的域名相同的域名保存至所述自身邮件白名单;在所述第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接,得到第三过滤后的链接,并将与所述Alexa白名单中的域名相同的域名保存至所述自身邮件白名单;在所述第三过滤后的链接中过滤出与所述发件人邮箱域名不同的域名所对应的链接,进而得到所述过滤后的链接,并将与所述发件人邮箱域名相同的域名和所述过滤后的链接的域名保存至所述自身邮件白名单。6.根据权利要求2所述的方法,其特征在于,提取所述过滤后的链接的预设链接特征包括:确定所述过滤后的链接的域名是否使用IP,得到是否使用IP的特征;确定所述IP是否不属于预设局域网段IP,得到是否不属于所述预设局域网段IP...

【专利技术属性】
技术研发人员:蔡福杰范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1