一种基于关系图的海量电子邮件分析方法及系统技术方案

技术编号:8703298 阅读:311 留言:0更新日期:2013-05-15 23:22
本发明专利技术涉及一种基于关系图的海量电子邮件分析方法及系统,所述方法包括:并行解析电子邮件源数据,提取出电子邮件头部信息、正文信息保存到电子邮件表中;将并行解析得到的附件摘要信息以设定结构存储至电子邮件附件表,并进行检测;根据解析的电子邮件数据,构建电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图;引入IP地址地理信息数据库与电子邮件用户身份信息数据库,对电子邮件表进行关联分析,并在生成的关系图中展示关联信息。所述系统对应包括并行解析模块、附件存储检测模块、关系图生成模块和关联分析模块。本发明专利技术有效解决了大数据量电子邮件的分析处理与电子邮件网络中垃圾邮件追踪定位的问题。

【技术实现步骤摘要】

本专利技术涉及网络信息安全
,涉及电子邮件检测与分析技术,特别是涉及一种基于关系图的海量电子邮件分析方法及系统
技术介绍
电子邮件,英文名称“Electronic mail”(简称“Email”),是一种通过电子通信系统进行信息交换的通信工具,现在往往与互联网(Internet)联系在一起,成为了最受欢迎的互联网应用服务之一。随着互联网的高速发展与网民数量的持续增长,电子邮件的服务商与用户越来越多,功能也趋于多样化;产生的数据量越来越大,格式也趋于复杂化。即时通信、社交网络、微博等流行的互联网应用服务与电子邮件有着密切的关系,例如:用户能够利用邮箱来验证其他应用服务的账户或找回密码,也可以通过电子邮件获得其他应用服务推送的信息。可见,用户通过电子邮件进行信息交流,构建成了一个基于通信行为的社会化网络,可称其为“电子邮件网络”。电子邮件网络不仅反映了电子邮件用户之间的关系,而且可以利用节点属性与边的权值,进一步表示用户间的通信频率、通信时间、通信内容和社交范围等特征。电子邮件在给人类的工作与生活带来便利的同时,也带来了许多网络信息安全问题。攻击者利用软硬件漏洞与社会工程学手段,通过发送大量电子邮件从事多种非法活动,例如:推送广告、散布谣言、宣扬色情暴力、反动串联、网络钓鱼和传播恶意代码等,我们把这些电子邮件统称为“垃圾邮件”。为了应对垃圾邮件的危害与威胁,电子邮件服务商与安全研究人员设计并实现多种反垃圾邮件系统来检测、过滤、追踪、定位垃圾邮件与其制造者。垃圾邮件防御者首先对大量垃圾邮件的源码与行为进行分析研究,提取其区别于正常邮件的特征与属性,然后根据这些特征和属性对未知邮件进行分类识别。现有的技术包括基于黑名单的检测技术、基于特征串的检测技术以及基于模式序列的检测技术等。在反垃圾邮件技术中,垃圾邮件的检测与过滤技术比较成熟,主要针对单个用户的收发电子邮件内容进行分析,很多电子邮件服务系统都有垃圾邮件过滤功能,能够较为准确识别垃圾邮件并采取相应措施;垃圾邮件的追踪与定位技术相对滞后,防御者只有通过对海量电子邮件与大量相关用户进行关联分析,进而构造出特定的电子邮件网络进行深入挖掘,并综合其他信息数据库的线索,才有可能真正定位攻击源,抓到犯罪分子。然而,业界和学术界尚缺乏对海量电子邮件的快速解析与深入挖掘技术,也没有与其他信息数据库相关联的综合分析手段,从而无法有效追踪与定位垃圾邮件攻击源与制造者,达到“治标治本”与惩戒不法分子的目的。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于关系图的海量电子邮件分析方法及系统,用于解决现有电子邮件分析方法无法快速有效处理海量电子邮件数据及追踪定位垃圾邮件攻击源的问题。本专利技术解决上述技术问题的技术方案如下:一种基于关系图的海量电子邮件分析方法,包括:并行解析步骤:采用并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中。附件存储检测步骤:将并行解析步骤中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,并进行检测;关系图生成步骤:基于并行解析步骤与附件存储检测步骤得到的电子邮件相关数据,构建实时更新的电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图;关联分析步骤:引入IP地址地理信息数据库与电子邮件用户身份信息数据库,并将这两个数据库与电子邮件表进行关联,并基于生成的关系图进行关联分析,再把关联分析过程与结果在关系图中展示。对于上述技术方案,相关名词解释如下:所述电子邮件头部信息,是基于电子邮件源码可获取的除电子邮件正文与附件之外的所有信息,一般包括发件人IP地址、路由信息、发送时间、发件人姓名、发件人电子邮箱地址、收件人姓名、收件人电子邮箱地址、抄送人姓名、抄送电子邮箱地址、密送人姓名、密送人电子邮箱地址、电子邮件标题、编码格式等字段信息。所述电子邮件表,是指海量电子邮件数据库中存放解析后的电子邮件头部信息、正文信息与其他属性信息的数据表。所述电子邮件附件表,是指海量电子邮件数据库中存放解析后的电子邮件附件相关信息的数据表,该表包括附件文件名、附件存储路径、处理状态、检测结果等字段。另外,由于附件文件本身占用空间较大,因此附件文件本身直接存储到服务器磁盘中,而不在海量电子邮件数据库中保存。所述电子邮件关系表,是指海量电子邮件数据库中存放用于生成关系图的相关信息的数据表,主要包括电子邮箱地址、收发角色、状态信息、电子邮件表标识等字段。所述单点关系图,是指关系图围绕一个电子邮箱展开,根据电子邮件关系表,提取其发件人集合与收件人集合生成点,根据往来的电子邮件关系生成边。所属多点关系图,是指关系图围绕若干个电子邮箱展开,根据这些电子邮箱生成点,根据电子邮件关系表中的往来电子邮件关系生成边。所述IP地址地理信息数据库,是指IP地址对应的相关地理信息的数据库,包括国家、城市、互联网服务提供商等信息。所述电子邮件用户身份信息数据库,是指电子邮件用户对应的其他相关身份信息的数据库,包括即时通信ID、手机号、身份证号、性别、住址等信息。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述并行解析步骤还包括:对加密压缩格式的电子邮件源数据进行解压缩和解密,并对提取的电子邮件头部信息进行检测。进一步,所述附件存储检测步骤中将附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,具体包括:根据电子邮件附件表的条目标识生成新的附件文件名,再按照“数据源编号/年/月/日/时”的文件存储结构存储至电子邮件附件表;所述附件存储检测步骤中对存储的附件信息的摘要信息进行检测,具体包括:通过恶意附件识别引擎检测附件信息的摘要信息是否可疑。进一步,所述关系图生成步骤还包括:对生成的关系图进行多级显示模式的处理。所述多级显示模式,是指可以基于已有关系图中的某点或者某条边进行扩展,围绕其生成新的下一层关系图。进一步,所述关联分析步骤具体包括:步骤A,获取待分析的电子邮件表,若电子邮件表为单点,则从电子邮件关系表中获取与该单点相关的条目,提取关联节点,形成新的电子邮件表;步骤B,结合电子邮件用户身份信息数据库,使用步骤A形成的新的电子邮件表,生成带有属性特征的关系图点集合;步骤C,根据电子邮件关系表,获取步骤B的关系图点集合中的每个元素关联的边集合,合并这些边集合,并结合IP地址地理信息数据库,生成带有属性特征的边集合,且所述属性特征包括权值;步骤D,将步骤B与步骤C生成的关系图点集合与边集合,转化为对应的图形化描述语言,再调用图形化展示接口生成新的关系图。对应上述系统的技术方案,本专利技术还提出了一种基于关系图的海量电子邮件分析系统,包括通过海量电子邮件数据库进行数据交互的并行解析模块、附件存储检测模块、关系图生成模块和关联分析模块:所述并行解析模块,其用于通过并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,并将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中;所述附件存储检测模块,其用于将并行解析模块中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电本文档来自技高网
...

【技术保护点】
一种基于关系图的海量电子邮件分析方法,其特征在于,包括:并行解析步骤:采用并行处理方式解析电子邮件源数据,并提取出电子邮件头部信息、正文信息和附件信息,将电子邮件头部信息和正文信息保存到海量电子邮件数据库的电子邮件表中;附件存储检测步骤:将并行解析步骤中得到的附件信息的摘要信息以设定的文件存储结构存储至海量电子邮件数据库的电子邮件附件表中,并进行检测;关系图生成步骤:基于并行解析步骤与附件存储检测步骤得到的电子邮件相关数据,构建实时更新的电子邮件关系表,并根据用户需求和电子邮件关系表生成单点关系图或多点关系图;关联分析步骤:引入IP地址地理信息数据库与电子邮件用户身份信息数据库,并将这两个数据库与电子邮件表进行关联,并基于生成的关系图进行关联分析,再把关联分析过程与结果在关系图中展示。

【技术特征摘要】

【专利技术属性】
技术研发人员:李书豪云晓春张永峥郝志宇霍永亮
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1