【技术实现步骤摘要】
一种邮件指纹提取方法及系统
[0001]本专利技术涉及邮件安全领域,特别涉及一种邮件指纹提取方法及系统。
技术介绍
[0002]在邮件安全的领域里,发送批量的垃圾邮件是攻击者经常会使用的一种攻击手段,攻击者通过工具可以很方便的构造出大量重复的垃圾邮件进行投递,从而使邮件服务器负载加剧甚至导致服务中断,为业务的正常运行带来巨大风险。
[0003]识别大批量相同邮件的一个重要手段就是通过将邮件信封、邮件内容、邮件附件等信息结合进行指纹摘要提取,作为判断批量邮件的特征使用,这种方案从理论上来说是没有问题的,但是当邮件内容巨大、附件巨大或相同邮件的数量特别巨大时,邮件指纹计算的提取的速度将受到严重影响,严重影响到了邮件业务的处理速度。
[0004]目前也存在一种截取数据的方式进行指纹计算的方法,这种方法对大邮件只提取前面一部分数据进行指纹计算,超出大小的部分不处理,这样就可以减少进行指纹计算的数据量提升计算和匹配效率。
[0005]目前比较常见的邮件指纹提取方式仍然是通过全文提取的方式处理,将邮件的信封、正文 ...
【技术保护点】
【技术特征摘要】
1.一种邮件指纹提取方法,其特征在于,所述方法包括:从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;对所述邮件头部分进行邮件头特征提取得到邮件头部特征码;对所述邮件正文部分进行正文特征提取得到邮件正文特征码;对所述附件信息部分进行附件特征提取得到邮件附件特征码;基于邮件头部特征码、邮件正文特征码以及邮件附件特征码对所述目标邮件进行指纹提取。2.根据权利要求1所述的方法,其特征在于,所述邮件头部分至少包括:邮件的发件人、收件人、时间、主题、Message
‑
ID、投递路由;还包括RFC规定的头域信息以及邮件中继服务器或邮件网关类设备添加的自定义头域信息。3.根据权利要求1所述的方法,其特征在于,对所述邮件头部分进行邮件头特征提取得到邮件头部特征码,包括:去除所有的头域换行符和不可见字符,仅对可见字符内容进行提取;针对RFC规范中要求的头域按照预设排序提取出头域值的数据;对于自定义的头域,对厂商标识、功能说明、头域值信息进行提取;对于重复出现的头域,统计提取出现的次数、头域值;将各个提取结果进行拼接形成邮件头部特征码。4.根据权利要求1所述的方法,其特征在于,所述邮件正文部分包括:PLAIN明文格式、Base64编码格式和Quote
‑
printable编码格式。5.根据权利要求4所述的方法,当邮件正文部分为PLAIN明文格式时,其特征在于,对所述邮件正文部分进行正文特征提取得到邮件正文特征码,包括:去除邮件正文中的换行、段落符;根据邮件正文的长度计算确定采样点的数量和每个采样点的长度;从邮件正文开始提取采样点数据;将所有采样点数据进行拼接形成采样指纹;提取正文数据中的非正文内容字符作为特征指纹;将采样指纹和特征指纹进行拼接形成邮件正文特征码。...
【专利技术属性】
技术研发人员:刘庆林,王金威,刘正伟,魏海宇,谢辉,安恩庆,李小琼,康柏荣,王鲲,
申请(专利权)人:北京中睿天下信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。