一种数据鉴别分析方法技术

技术编号:27399131 阅读:15 留言:0更新日期:2021-02-21 14:10
本发明专利技术提供了一种基于垃圾邮件数据鉴别分析方法,该方法是基于垃圾邮件和正常邮件的通信行为对比得知,对邮件进行数据的收集,数据的收集是否采集到足够的有代表性的数据关系到最后的识别性能。通过对数据进行预处理,从原始邮件中提取邮件头信息,选取具有垃圾邮件可区分性的行为特征并进行处理。采用数据挖掘的方法对提取出来的行为特征向量集合进行模式挖掘并预测。模式挖掘并预测。模式挖掘并预测。

【技术实现步骤摘要】
一种数据鉴别分析方法


[0001]本专利技术涉及一种数据鉴别分析方法,属于互联网数据安全处理领域。

技术介绍

[0002]随着互联网的规模不断扩大以及上网用户的增加,电子邮件因为其方便、快捷、便宜等特点,成为人们的社会生活中越来越重要的一种通信方式,但是,我们的电子邮箱会经常收到一些不认识的人或地址发来的邮件,甚至这些邮件占了所收到邮件的大多数,这些邮件甚至还会带来病毒,是计算机中毒甚至瘫痪。所以垃圾邮件已经成为我们面临的安全问题。
[0003]正常的邮件发送都要遵循标准SMPT协议,按照协议规定的模式发送邮件。STMP协议的工作过程比较简单,易于模拟,同时也存在安全缺陷,通过伪造合法的服务器身份、合法的发件人地址等手段来欺骗邮件服务器。由垃圾邮件和正常邮件的通信鉴别对比得知,正确判别垃圾邮件的关键问题在于对邮件发生过程中的通信信息进行正确的识别。
[0004]反垃圾邮件占据相对较多的系统资源,所以一台平时负荷不大可以完全满足应用的邮件安全产品可能在邮件病毒爆发或垃圾邮件嫉妒泛滥时系统资源被占满这将导致自身防护不好的邮件安全产品甚至可能导致自身崩溃。
[0005]数据鉴别是指程序执行或用户操作过程中体现出的某种规律性,它通常反映了用户的身份和习惯。通过大量的实验指出,无论是程序的执行还是用户的行为,在系统特性上都呈现出紧密的相关性。数据鉴别分析能够在邮件传输代理通信阶段,针对垃圾邮件在传递过程中显示出来的如“发送频率频繁、在短时间内不断地进行发送、动态IP等”明显一系列带有垃圾邮件典型行为特征的邮件放入邮件队列之前实时判断并处理,这样的话他不需要对邮件的全部进行扫描,不仅提高了网关过滤垃圾邮件的速度,而且减少了网络资源的负荷和网络流量,可以提高垃圾邮件计算处理能力的同时也不会出现侵犯隐私权的法律风险。
[0006]之前,反垃圾邮件领域提出了用“数据鉴别分析”来过滤垃圾邮件,数据鉴别的主要优势有(1)处理效率高。不会考虑正文内容,主要针对邮件头信息,故处理速度很快,提高了处理效率;(2)识别效果持久。头信息有固定的格式,不会频繁改变,保证了识别效果的持久性;(3)节省带宽。鉴别分析方法可以在会话连接阶段进行识别和拦截,有效的减少资源消耗;(4)安全性和保密性高。内容过滤对邮件正文分析,其安全性和保密性无任何保障。数据鉴别分析方法着重于邮件头信息,保护了用户隐私。此外,数据鉴别分析模型方法还可以基于大量的垃圾邮件日志和存档数据进行离线的统计、分析和计算。数据鉴别分析有较大的发展潜力,是反垃圾邮件方法的发展方向之一。

技术实现思路

[0007]本专利技术的目的是为了实现数据鉴别分析方法。是对垃圾邮件在实时通信过程中就可以判断出是否为垃圾邮件。
[0008]本专利技术一种数据鉴别分析方法,所述的方法包括下述步骤:
[0009]首先模式识别分类通常要包括以下几个步骤:数据的采集、数据预处理、数据挖掘。邮件的行为采集是指从正常邮件和垃圾邮件中收集对象的相关数据信息的过程,数据采集是否采集到足够多有代表性的样本数据关系到模式的最后性能。
[0010]其次行为特征数据预处理,首先进行数据清理即填写空缺的值,识别、删除孤立点,垃圾数据能使行为模式陷入混乱,导致不可靠的输出。其次进行数据集成即将多个数据源中的数据结合起来存放在一个一致的数据存储中。最后进行数据的变换将数据转换成适合挖掘的数据形式。即从原始邮件数据中提取邮件头信息,选取具有垃圾邮件可区分性的行为特征以及对特征数据的向量化处理。
[0011]最后采用数据挖掘的方法对提取出来的行为特征向量集合进行模式挖掘。
附图说明
[0012]图1是一种数据鉴别分析方法基本原理流程图
具体实施方式
[0013]为了使本专利技术的目的、方法方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。
[0014]本专利技术提出了一种数据鉴别分析方法,对邮件行为进行分析,提取邮件行为特征,最后对垃圾邮件在实时通信过程中可以判断出是否为垃圾邮件。
[0015]如图,首先要对邮件进行数据采集,收集邮件数据集合。其次是数据预处理,从原始邮件数据中提取邮件头信息,选取具有垃圾邮件行为特征以及对特征数据的向量化处理,然后采用数据挖掘的方法对提取出来的行为特征向量集合进行预测。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据鉴别分析方法,其特征在于:对邮件进行行为采集即从正常邮件和垃圾邮件中收集相关数据信息的过程;进行行为特征数据的预处理,首先进行数据清理即填写空缺的值、识别并删除孤立的点;采用数据挖掘的方法对提取出来的行为特征向量集合进行模式挖掘...

【专利技术属性】
技术研发人员:邬玉良
申请(专利权)人:中科热备北京云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1