一种邮件指纹提取方法及系统技术方案

技术编号:34148910 阅读:9 留言:0更新日期:2022-07-14 19:39
本申请公开了一种邮件指纹提取方法及系统。本方法首先从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;然后对邮件头部分进行特征提取得到邮件头部特征码;对邮件正文部分进行特征提取得到邮件正文特征码;对附件信息部分进行特征提取得到邮件附件特征码;最后基于邮件头部特征码、邮件正文特征码以及邮件附件特征码对目标邮件进行指纹提取。本发明专利技术通过对三部分指纹字符的提取,实现了摘要指纹计算方法,减少了传统指纹提取方案中需要进行邮件全文数据计算导致计算速度满、资源消耗大的问题,同时后期在进行指纹匹配时也可以按照提取的方式进行匹配,极大的提升了邮件匹配效率。大的提升了邮件匹配效率。大的提升了邮件匹配效率。

【技术实现步骤摘要】
一种邮件指纹提取方法及系统


[0001]本专利技术涉及邮件安全领域,特别涉及一种邮件指纹提取方法及系统。

技术介绍

[0002]在邮件安全的领域里,发送批量的垃圾邮件是攻击者经常会使用的一种攻击手段,攻击者通过工具可以很方便的构造出大量重复的垃圾邮件进行投递,从而使邮件服务器负载加剧甚至导致服务中断,为业务的正常运行带来巨大风险。
[0003]识别大批量相同邮件的一个重要手段就是通过将邮件信封、邮件内容、邮件附件等信息结合进行指纹摘要提取,作为判断批量邮件的特征使用,这种方案从理论上来说是没有问题的,但是当邮件内容巨大、附件巨大或相同邮件的数量特别巨大时,邮件指纹计算的提取的速度将受到严重影响,严重影响到了邮件业务的处理速度。
[0004]目前也存在一种截取数据的方式进行指纹计算的方法,这种方法对大邮件只提取前面一部分数据进行指纹计算,超出大小的部分不处理,这样就可以减少进行指纹计算的数据量提升计算和匹配效率。
[0005]目前比较常见的邮件指纹提取方式仍然是通过全文提取的方式处理,将邮件的信封、正文、附件等全量信息组合后进行摘要计算,将结果作为邮件指纹存储的方式,这种方式会提取邮件的全部信息,当遇到邮件内容较大、邮件正文中存在大量不可见字符、附件内容较大的情况时,需要获取摘要的整合结果就会很长,计算效率会出现明显的下降,影响指纹的计算效率和后续的匹配效率。
[0006]对于部分截取方式的指纹计算,虽然从计算上减少了邮件内容的提取,但是这种只采取截断连续部分的方式会产生大量的误报指纹,严重影响业务的准确性,同时对附件信息的处理也存在天然的缺陷。

技术实现思路

[0007]基于此,本申请实施例提供了一种邮件指纹提取方法及系统,能够通过特征、采样、统计等方式减少巨大邮件中标识邮件指纹数据,只需要少量数据就可以实现整个邮件的精准标识,提高指纹计算的效率和后续需要进行指纹匹配业务的效率,提升邮件业务处理能力。
[0008]第一方面,提供了一种邮件指纹提取方法,该方法包括:
[0009]从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;
[0010]对所述邮件头部分进行邮件头特征提取得到邮件头部特征码;
[0011]对所述邮件正文部分进行正文特征提取得到邮件正文特征码;
[0012]对所述附件信息部分进行附件特征提取得到邮件附件特征码;
[0013]基于邮件头部特征码、邮件正文特征码以及邮件附件特征码对所述目标邮件进行指纹提取。
[0014]可选地,所述根据各个指标项的指标项得分进行企业诚信状况评估得出待测企业
的诚信分,包括:
[0015]依据应用场景的真实业务特征,在所述各个指标项的指标项得分中选取信用主体的指标,计算各个指标项的权重值;并利用得到的各个指标项的权重值和指标项得分计算出待测企业的诚信分。
[0016]可选地,所述邮件头部分至少包括:
[0017]邮件的发件人、收件人、时间、主题、Message

ID、投递路由;还包括RFC规定的头域信息以及邮件中继服务器或邮件网关类设备添加的自定义头域信息。
[0018]可选地,对所述邮件头部分进行邮件头特征提取得到邮件头部特征码,包括:
[0019]去除所有的头域换行符和不可见字符,仅对可见字符内容进行提取;
[0020]针对RFC规范中要求的头域按照预设排序提取出头域值的数据;
[0021]对于自定义的头域,对厂商标识、功能说明、头域值信息进行提取;
[0022]对于重复出现的头域,统计提取出现的次数、头域值;
[0023]将各个提取结果进行拼接形成邮件头部特征码。
[0024]可选地,所述邮件正文部分包括:
[0025]PLAIN明文格式、Base64编码格式和Quote

printable编码格式。
[0026]可选地,当邮件正文部分为PLAIN明文格式时,对所述邮件正文部分进行正文特征提取得到邮件正文特征码,包括:
[0027]去除邮件正文中的换行、段落符;
[0028]根据邮件正文的长度计算确定采样点的数量和每个采样点的长度;
[0029]从邮件正文开始提取采样点数据;
[0030]将所有采样点数据进行拼接形成采样指纹;
[0031]提取正文数据中的非正文内容字符作为特征指纹;
[0032]将采样指纹和特征指纹进行拼接形成邮件正文特征码。
[0033]可选地,当邮件正文部分为Base64编码或Quote

printable编码后的数据时,对所述邮件正文部分进行正文特征提取得到邮件正文特征码,包括:
[0034]记录邮件正文的编码类型;
[0035]在Base64编码或Quote

printable编码后,长度计算采样点和采样长度;
[0036]从邮件正文开始位置进行采样,拼接为采样指纹;
[0037]对于Base64编码格式通过统计大、小写字母、数字以及符号的数量作为统计指纹;对于Quote

printable编码格式通过统计等号以及软换行等字符出现的数量作为统计指纹;
[0038]将采样指纹和特征指纹进行拼接形成邮件正文特征码。
[0039]可选地,对所述附件信息部分包括:
[0040]附件名称、媒体类型、附件大小以及编码后分段采样点。
[0041]可选地,对所述附件信息部分进行附件特征提取得到邮件附件特征码,包括:
[0042]提取附件中附件名称、媒体类型、附件大小以及压缩格式信息得到附件信息;
[0043]根据存储数据的长度确定采样点和采样长度;
[0044]根据采样点位置进行字符特征提取拼接形成采样指纹;
[0045]将附件信息和采样指纹拼接形成邮件附件特征码。
[0046]第二方面,提供了一种邮件指纹提取系统,该系统包括:
[0047]提取模块,用于从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;
[0048]第一特征提取模块,用于对所述邮件头部分进行邮件头特征提取得到邮件头部特征码;
[0049]第二特征提取模块,对所述邮件正文部分进行正文特征提取得到邮件正文特征码;
[0050]第三特征提取模块,对所述附件信息部分进行附件特征提取得到邮件附件特征码;
[0051]指纹提取模块,用于基于邮件头部特征码、邮件正文特征码以及邮件附件特征码对所述目标邮件进行指纹提取。
[0052]本申请实施例提供的技术方案中首先从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;然后对邮件头部分进行邮件头特征提取得到邮件头部特征码;对邮件正文部分进行正文特征提取得到邮件正文特征码;对附件信息部分进行附件特征提取得到邮件附件特征码;最后基于邮件头部特征码、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种邮件指纹提取方法,其特征在于,所述方法包括:从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;对所述邮件头部分进行邮件头特征提取得到邮件头部特征码;对所述邮件正文部分进行正文特征提取得到邮件正文特征码;对所述附件信息部分进行附件特征提取得到邮件附件特征码;基于邮件头部特征码、邮件正文特征码以及邮件附件特征码对所述目标邮件进行指纹提取。2.根据权利要求1所述的方法,其特征在于,所述邮件头部分至少包括:邮件的发件人、收件人、时间、主题、Message

ID、投递路由;还包括RFC规定的头域信息以及邮件中继服务器或邮件网关类设备添加的自定义头域信息。3.根据权利要求1所述的方法,其特征在于,对所述邮件头部分进行邮件头特征提取得到邮件头部特征码,包括:去除所有的头域换行符和不可见字符,仅对可见字符内容进行提取;针对RFC规范中要求的头域按照预设排序提取出头域值的数据;对于自定义的头域,对厂商标识、功能说明、头域值信息进行提取;对于重复出现的头域,统计提取出现的次数、头域值;将各个提取结果进行拼接形成邮件头部特征码。4.根据权利要求1所述的方法,其特征在于,所述邮件正文部分包括:PLAIN明文格式、Base64编码格式和Quote

printable编码格式。5.根据权利要求4所述的方法,当邮件正文部分为PLAIN明文格式时,其特征在于,对所述邮件正文部分进行正文特征提取得到邮件正文特征码,包括:去除邮件正文中的换行、段落符;根据邮件正文的长度计算确定采样点的数量和每个采样点的长度;从邮件正文开始提取采样点数据;将所有采样点数据进行拼接形成采样指纹;提取正文数据中的非正文内容字符作为特征指纹;将采样指纹和特征指纹进行拼接形成邮件正文特征码。...

【专利技术属性】
技术研发人员:刘庆林王金威刘正伟魏海宇谢辉安恩庆李小琼康柏荣王鲲
申请(专利权)人:北京中睿天下信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1