一种基于多属性的误发邮件检测方法技术

技术编号:11766420 阅读:97 留言:0更新日期:2015-07-23 18:18
本发明专利技术提出了一种基于多属性的误发邮件检测方法,包括以下步骤:从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性;根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模型;提取新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于SVM分类模型进行检测,判断所述新邮件是否为误发邮件。本发明专利技术从内容特征、社会关系和通信行为等多种属性对用户的通信行为偏差建立通用检测模型,具有实施简单、准确率较高等优点。

【技术实现步骤摘要】

本专利技术属于隐私保护领域,涉及。
技术介绍
电子邮件是是Internet应用最广泛的服务之一,具有快速方便、价格低廉、用途 广泛等特点。由于电子邮件作用巨大,稍有不慎就可能造成敏感数据泄露,给数据安全带 来了严重威胁。目前电子邮件泄露造成的安全事故屡屡发生,在互联网上大行其道的内部 邮件泄密消息不绝于耳,其中由用户失误或内部攻击者造成的泄密更为严重。Infowatch 的调研报告显示电子邮件泄露在无意识的泄露事件中和有意识泄露事件中分别占9. 9% 和4. 4%。大部分的无意识邮件泄密是由用户误发邮件造成的,如用户Alice本来打算向 johnOcorpa.com发一封敏感邮件,却由于疏忽发给了joanOcorpb.com,导致信息泄露或造 成恶劣影响。2011年,曼城CEOCook将一封发给曼城足球总监Marwood的邮件误发给曼城 队后卫NedumOnuoha身患癌症的母亲DrAnthoniaOnuoha。邮件中对DrAnthoniaOnuoha 进行了"嘲讽和侮辱",Cook因此被推到了舆论风暴中心,直接导致他辞职。此类事件发生 次数还很多,造成的影响也更加严重。因此必须在源头监控敏感邮件的流通,防止误发事件 发生。 误发邮件实际上与用户的意图相悖的,表现在用户的通信行为出现了异常,即与 以前的行为存在较大偏差,而正常用户行为的偏差常在一定范围内波动。因此可以将误发 邮件检测看成一种分类问题:行为差异较小的正常邮件和行为差异较大的误发邮件。已有 的检测方法多关注单个用户行为,建立单用户模型以检测误发邮件,且提取属性不全面,准 确率不高
技术实现思路
针对上述现有技术不足,本专利技术将误发邮件检测看成一个二值分类问题,从内容 特征、社会关系和通信行为等多种属性对用户的通信行为偏差建立通用检测模型,当用户 通信行为偏差超过正常的范围时,则很可能是一封误发邮件。 为了准确地检测误发邮件,本专利技术提出了, 包括以下步骤: 1)从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性; 2)根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模 型; 3)提取一封新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于 SVM分类模型进行检测,判断所述新邮件是否为误发邮件。 进一步地,提取所述内容特征属性包括,在邮件集合E中,查找与邮件集合E中的 邮件e最相似的K个邮件组成集合Esub={ee2,…,eK},并计算每个收件人的得分1^作 为其文本特征;若收件人A曾经发送或接收过ep则&获得值为sim(ei,e)的得分;其中 sim(ej,e)为ej和e的相似度,采用BM25算法计算得到;ti的值越小,则新邮件为误发邮件 的可能性越大。【主权项】1. ,包括w下步骤: 1) 从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性; 2) 根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模型; 3) 提取一新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于SVM分类 模型进行检测,判断所述新邮件是否为误发邮件。2. 根据权利要求1所述的基于多属性的误发邮件检测方法,其特征在于,提取所述内 容特征属性包括,在一邮件集合E中,查找与邮件集合E中的一邮件e最相似的K个邮件组 成集合氏ub=ie1,e,,…,ej,并计算每个收件人的得分ti作为其文本特征;若收件人ri曾 经发送或接收过6j,则r;获得值为sim(e。e)的得分;其中sim(ej,e)为6j和e的相似度, 采用BM25算法计算得到。3. 根据权利要求2所述的基于多属性的误发邮件检测方法,其特征在于,所述 sim(ej,e)的计算公式为其中Qi为Sj中的关键 词,f(qi,e)为关键词Qi在邮件e中的频率,|e|是e中的词的数量,avgdl是所有邮件平均 词数量,ki和b是参数,取值为kiG,b= 0. 75,n为ej中的词数量,IDFhi)是 关键词Qi的倒排文档频率权重。4. 根据权利要求3所述的基于多属性的误发邮件检测方法,其特征在于,所述IDF(q1) 的计算公式为:其中N为集合中邮件总数,nhi)是包含关键词di的 邮件数量。5. 根据权利要求4所述的基于多属性的误发邮件检测方法,其特征在于,所述ti的计 算公式为妻中,isReckj,ui)为指示函数,如果邮件6j是Ui 接收或发送的邮件,返回1,否则返回0。6. 根据权利要求1所述的基于多属性的误发邮件检测方法,其特征在于,所述社会关 系属性包括,发件人U。的发送率r,、收件人Ui的接收率rt、最近t时间内U。向Ui发送邮件 数和Ui接收的邮件数mail_count(U。, t)、mail_count相,U。,t)、U。和Ui的关系距离。7. 根据权利要求1所述的基于多属性的误发邮件检测方法,其特征在于,所述通信 行为属性包括,发送时间比例time_rate、发送日期比例date_rate、附件比例attached_ rate、会话状态比例state_rate、发送类型比例send_rate、单发与群发比例bidk_rate、邮 件大小差异size_rate。8. 根据权利要求1所述的基于多属性的误发邮件检测方法,其特征在于,所述建立基 于SVM分类模型包括采用基于RBF核的SVM算法建立分类模型。9. 根据权利要求1所述的基于多属性的误发邮件检测方法,其特征在于,用所述基于 SVM分类模型进行检测,判断所述新邮件是否为误发邮件包括;基于SVM分类模型对当前邮 件进行分类,若分到误发邮件一类,则认为是误发邮件。【专利摘要】本专利技术提出了,包括以下步骤:从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性;根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模型;提取新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于SVM分类模型进行检测,判断所述新邮件是否为误发邮件。本专利技术从内容特征、社会关系和通信行为等多种属性对用户的通信行为偏差建立通用检测模型,具有实施简单、准确率较高等优点。【IPC分类】G06F17-30, G06Q10-10【公开号】CN104794176【申请号】CN201510154872【专利技术人】蒲以国, 陈小军, 时金桥, 郭莉, 柳厅文, 文新, 徐睿 【申请人】中国科学院信息工程研究所【公开日】2015年7月22日【申请日】2015年4月2日本文档来自技高网
...

【技术保护点】
一种基于多属性的误发邮件检测方法,包括以下步骤:1)从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性;2)根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模型;3)提取一新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于SVM分类模型进行检测,判断所述新邮件是否为误发邮件。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒲以国陈小军时金桥郭莉柳厅文文新徐睿
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1