钓鱼邮件的检测方法及钓鱼邮件检测模型的训练方法技术

技术编号:37334012 阅读:27 留言:0更新日期:2023-04-21 23:12
本申请实施例提供了一种钓鱼邮件的检测方法及钓鱼邮件检测模型的训练方法,该方法包括:通过获取待检测邮件文本;从待检测邮件文本中提取预设数量的有效句子,得到有效文本内容;将有效文本内容输入钓鱼邮件检测模型,确定所述待检测邮件文本是否是钓鱼邮件。该方案由于不再基于通用词库或专家词库检测钓鱼邮件,提升了钓鱼邮件检测的准确率和检测效率。提升了钓鱼邮件检测的准确率和检测效率。提升了钓鱼邮件检测的准确率和检测效率。

【技术实现步骤摘要】
钓鱼邮件的检测方法及钓鱼邮件检测模型的训练方法


[0001]本申请涉及计算机网络安全
,特别涉及一种钓鱼邮件的检测方法、钓鱼邮件检测模型的训练方法、电子设备及计算机可读存储介质。

技术介绍

[0002]钓鱼邮件是一种伪造邮件,一般目的是用来欺骗收件人将账户,口令或者密码等信息回复给指定的接受者,或者有超链接引导收件人连接到特制的钓鱼网站,输入账户名称,密码等私密信息。针对钓鱼邮件的检测,目前的方法是通过从邮件文本,邮件主题以及邮件包含的超链接提取特征,特征包括文本中的危险词汇、可疑词汇等特定的词汇,邮件中超链接的数量、是否跳转以及链接包含的特定字符等特征,这些特征通过相关学习的方法得到邮件是钓鱼邮件的概率,当检测邮件超过阈值便判断为钓鱼邮件。这种算法可以有效的检测邮件中的钓鱼邮件。
[0003]目前的钓鱼邮件检测方法,大多是基于通用词库或者人为整理的敏感词词库来进行钓鱼邮件的判断,这种检测方法具有以下缺点:(1)词库都是固定的,单纯的考虑词库里的敏感词缺少了上下文语境的关联,面对种类繁多的钓鱼邮件缺少泛化性。(2)敏感词的词库完全是由业务专家构建,构建过程较为复杂,缺少数据的客观性。(3)通用词库由于没有场景性,用于钓鱼邮件检测的效果较差。

技术实现思路

[0004]本申请实施例提供了钓鱼邮件的检测方法,用以提升钓鱼邮件检测的准确率和检测效率。
[0005]本申请实施例提供了一种钓鱼邮件的检测方法,包括:
[0006]获取待检测邮件文本;
[0007]从所述待检测邮件文本中提取预设数量的有效句子,得到有效文本内容;
[0008]将所述有效文本内容输入钓鱼邮件检测模型,确定所述待检测邮件文本是否是钓鱼邮件,所述钓鱼邮件检测模型是根据有效样本内容和所述有效样本内容是否为钓鱼邮件的分类结果,通过训练预设网络模型的参数得到的,其中,所述有效样本内容是从已知是否为钓鱼邮件的多个样本邮件中提取预设数量的有效句子得到。
[0009]在一实施例中,所述从所述待检测邮件文本中提取预设数量的有效句子,得到有效文本内容,包括:
[0010]对所述待检测邮件文本进行预处理,得到所述待检测邮件文本中目标句子对应的词汇列表;
[0011]根据词库中不同词汇对应的序号以及所述待检测邮件文本中目标句子对应的词汇列表,确定所述目标句子包含的有效字符数;
[0012]将所述有效字符数大于预设值的目标句子确定为有效句子,并从所述待检测邮件文本中按序提取预设数量的有效句子,得到所述有效文本内容。
[0013]在一实施例中,所述对所述待检测邮件文本进行预处理,得到所述待检测邮件文本中目标句子对应的词汇列表,包括:
[0014]对所述待检测邮件文本进行分句处理,得到目标句子;
[0015]比较所述目标句子的中文词汇数量与英文词汇数量;
[0016]若中文词汇数量多于英文词汇数量,仅保留中文词汇,得到所述目标句子对应的中文词汇列表;若中文词汇数量少于英文词汇数量,仅保留英文词汇,得到所述目标句子对应的英文词汇列表。
[0017]在一实施例中,在所述对所述待检测邮件文本进行分句处理,得到目标句子之前,所述方法还包括:
[0018]对所述待检测邮件文本的邮件主题进行解码处理,对所述待检测邮件文本的邮件正文进行繁体字转换,并删除转义符号。
[0019]在一实施例中,在所述根据词库中不同词汇对应的序号以及所述待检测邮件文本中目标句子对应的词汇列表,确定所述目标句子包含的有效字符数之前,所述方法还包括:
[0020]获取包含多个样本邮件的样本邮件集合,所述样本邮件集合包括钓鱼邮件和非钓鱼邮件;
[0021]从每份样本邮件中提取出词频

逆文档频率数值最大的若干词汇,构成所述词库,所述词库包括多个词汇以及每个词汇对应的序号。
[0022]在一实施例中,在一实施例中,在所述从每份样本邮件中提取出词频

逆文档频率数值最大的若干词汇,构成所述词库之前,所述方法还包括:
[0023]针对每个样本邮件,从所述样本邮件中提取正文部分,并将所述正文部分分割为多个样本句子;
[0024]针对每个样本句子,对所述样本句子进行分词处理,得到所述样本邮件包含的词汇。
[0025]在一实施例中,所述针对每个样本句子,对所述样本句子进行分词处理,得到所述样本邮件包含的词汇,包括:
[0026]针对样本邮件中的每个样本句子,识别所述样本句子是否为中文句子;
[0027]若所述样本句子为中文句子,对所述中文句子进行繁体字替换处理和分词处理,得到所述中文句子包含的词汇;
[0028]若所述样本句子为英文句子,对所述英文句子进行分词处理,并对异常英文单词进行分割处理,保留正确单词,得到所述英文句子包含的词汇。
[0029]在一实施例中,所述将所述有效文本内容输入钓鱼邮件检测模型,确定所述待检测邮件文本是否是钓鱼邮件,包括:
[0030]将所述有效文本内容输入钓鱼邮件检测模型,获得所述钓鱼邮件检测模型输出的置信度;
[0031]若所述置信度大于等于阈值,确定所述待检测邮件文本是钓鱼邮件;
[0032]若所述置信度小于阈值,确定所述待检测邮件文本为非钓鱼邮件。
[0033]在一实施例中,在所述将所述有效文本内容输入钓鱼邮件检测模型,确定所述待检测邮件文本是否是钓鱼邮件之前,所述方法还包括:
[0034]获取已知是否为钓鱼邮件的多个样本邮件;
[0035]从所述样本邮件中提取预设数量的有效句子,得到有效样本内容;
[0036]根据所述有效样本内容和所述有效样本内容是否为钓鱼邮件的分类结果,训练预设网络模型的参数,获得钓鱼邮件检测模型。
[0037]在一实施例中,所述预设网络模型为Bi

LSTM+Attention网络模型,所述Bi

LSTM+Attention网络模型包括:依次连接的嵌入层、单词长短期记忆层、单词注意力层、句子长短期记忆层、句子注意力层以及分类函数层。
[0038]在一实施例中,所述根据所述有效样本内容和所述有效样本内容是否为钓鱼邮件的分类结果,训练Bi

LSTM+Attention网络模型的参数,获得由所述Bi

LSTM+Attention网络模型训练完成的钓鱼邮件检测模型,包括:
[0039]通过依次连接的嵌入层、单词长短期记忆层、单词注意力层、句子长短期记忆层、句子注意力层提取所述有效样本内容的整体特征;
[0040]将所述整体特征作为所述分类函数层的输入,获得所述分类函数层输出的预测结果,根据所述预测结果和已知的分类结果,优化所述Bi

LSTM+Attention网络模型的参数,直到满足训练目标,获得由所述Bi

LSTM+Attention网络模型训练完本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种钓鱼邮件的检测方法,其特征在于,包括:获取待检测邮件文本;从所述待检测邮件文本中提取预设数量的有效句子,得到有效文本内5容;将所述有效文本内容输入钓鱼邮件检测模型,确定所述待检测邮件文本是否是钓鱼邮件,所述钓鱼邮件检测模型是根据有效样本内容和所述有效样本内容是否为钓鱼邮件的分类结果,通过训练预设网络模型的参数得到的,其中,所述有效样本内容是从已知是否为钓鱼邮件的多个样本邮件0中提取预设数量的有效句子得到。2.根据权利要求1所述的方法,其特征在于,所述从所述待检测邮件文本中提取预设数量的有效句子,得到有效文本内容,包括:对所述待检测邮件文本进行预处理,得到所述待检测邮件文本中目标句子对应的词汇列表;5根据词库中不同词汇对应的序号以及所述待检测邮件文本中目标句子对应的词汇列表,确定所述目标句子包含的有效字符数;将所述有效字符数大于预设值的目标句子确定为有效句子,并从所述待检测邮件文本中按序提取预设数量的有效句子,得到所述有效文本内容。3.根据权利要求2所述的方法,其特征在于,所述对所述待检测邮件文0本进行预处理,得到所述待检测邮件文本中目标句子对应的词汇列表,包括:对所述待检测邮件文本进行分句处理,得到目标句子;比较所述目标句子的中文词汇数量与英文词汇数量;若中文词汇数量多于英文词汇数量,仅保留中文词汇,得到所述目标句子对应的中文词汇列表;若中文词汇数量少于英文词汇数量,仅保留英文词汇,得到所述目标句子对应的英文词汇列表。4.根据权利要求3所述的方法,其特征在于,在所述对所述待检测邮件文本进行分句处理,得到目标句子之前,所述方法还包括:对所述待检测邮件文本的邮件主题进行解码处理,对所述待检测邮件文本的邮件正文进行繁体字转换,并删除转义符号。5.根据权利要求2所述的方法,其特征在于,在所述根据词库中不同词汇对应的序号以及所述待检测邮件文本中目标句子对应的词汇列表,确定所述目标句子包含的有效字符数之前,所述方法还包括:获取包含多个样本邮件的样本邮件集合,所述样本邮件集合包括钓鱼邮件和非钓鱼邮件;从每份样本邮件中提取出词频

逆文档频率数值最大的若干词汇,构成所述词库,所述词库包括多个词汇以及每个词汇对应的序号。6.根据权利要求5所述的方法,其特征在于,在所述从每份样本邮件中提取出词频

逆文档频率数值最大的若干词汇,构成所述词库之前,所述方法还包括:针对每个样本邮件,从所述样本邮件中提取正文部分,并将所述正文部分分割为多个样本句子;针对每个样本句子,对所述样本句子进行分词处理,得到所述样本邮件包含的词汇。7.根据权利要求6所述的方法,其特征在于,所述针对每个样本句子,对所述样本句子
进行分词处理,得到所述样本邮件包含的词汇,包括:针对样本邮件中的每个样本句子,识别所述样本句子是否为中文句子;若所述样本句子为中文句子,对所述中文句子进行繁体字替换处理和分词处理,得到所述中文句子包含的词汇;若所述样本句子为英文句子,对所述英文句子进行分词处理,并对异常英文单词进行分割处理,保留正确单词,得到所述英文句子包含的词汇。8.根据权利要求1所述的方法,其特征在于,所述将所述有效文本内容输入钓鱼邮件检测模型,确定所述待检测邮件文本是否是钓鱼邮件,包括:将所述有效文本内容输入钓鱼邮件检测模型,获得所述钓鱼邮件检测模型输出的置信度;若所述置信度大于等于阈值,确定所述待检测邮件文本是钓鱼邮件;若所述置信度小于阈值,确定所述待检测邮件文本为非钓鱼邮件。9.根据权利要求1所述的方法,其特征在于,在所述将所述有效文本内容输入钓鱼邮件检测模型,确定所述待检测邮件文本是否是钓鱼邮件之前,所述方法还包括:获取已知是否为钓鱼邮件的多个样本邮件;从所述样本邮件中提取预设数量的有效句子,得到有效样本内容;根据所述有效样本内容和所述有效样本内容是否为钓鱼邮件的分类结果,训练Bi

LSTM+Attention网络模型的参数,获得由所述Bi

LSTM+Attention网络模型训练完成的钓鱼邮件检测模型。10.根据权利要求9所述的方法,其特征在于,所述Bi

LSTM+Attention网络模型包括:依次连接的嵌入层、单词长短期记忆层、单词注意力层、句子长短期记忆层、句子注意力层以及分类函数层。11.根据权利要求10所述的方法,其特征在于,所述根据所述有效样本内容和所述有效样...

【专利技术属性】
技术研发人员:张健李刚黄传明
申请(专利权)人:奇安信科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1