基于用户行为和文档内容的数据防泄漏分析方法及系统技术方案

技术编号:17917653 阅读:40 留言:0更新日期:2018-05-10 21:28
本发明专利技术公开了基于用户行为和文档内容的数据防泄漏分析方法及系统,该方法包括以下步骤:分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据,经过数据平均、归一化处理,分别得到该用户的长期行为数据向量和短期行为数据向量;根据所述用户长期行为数据向量和短期行为数据向量间的向量间距离与预定向量距离阈值的比较结果,确定用户外发邮件行为是否存在异常;对于存在异常行为的用户外发邮件,提取邮件内容文档,并判定文档的主题类别;根据文档主题类别选定与该类别关联的文本精确匹配策略规则,确定文档中是否存在敏感数据。通过本发明专利技术的技术方案,可以明显提高敏感数据外泄事件判断的准确程度,有效降低仅通过内容匹配进行判断的误报率。

【技术实现步骤摘要】
基于用户行为和文档内容的数据防泄漏分析方法及系统
本专利技术涉及数据安全领域,具体涉及基于用户行为和文档内容的数据防泄漏分析方法及系统。
技术介绍
企业数据防泄漏系统的主要功能是防止企业员工外发敏感数据。因此,准确判断员工外发的数据是否敏感,是数据防泄漏系统的关键。传统的手段是通过精确匹配的手段,例如关键词或正则表达式的命中次数来实现,往往容易产生很多误报。因此数据防泄漏系统迫切需要考虑更多的因素,来判定企业员工的外发数据行为是否安全事件。对比文献1公开号:105357217A,专利技术名称:基于用户行为分析的数据盗取风险评估方法和系统该现有技术通过对内网终端用户的网络行为进行分析,发现存在风险操作的潜在终端,保护数据安全,提高内部网络的安全性。该现有技术通过获取终端用户的操作行为对;根据所述操作行为对,获取危险操作行为对和危险操作行为对数,计算第一危险性系数;根据所述危险操作行为对,获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数,计算第二危险性系数;根据拷贝行为,获取危险拷贝行为和危险拷贝文件数,计算第三危险性系数和第四危险性系数;根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数,采用预设的风险评估模型计算终端危险性系数。上述现有技术根据终端的操作对计算危险系数,包括:拦截网络数据流;对所述网络数据流进行协议解析得到字符流;获取预设的与程序语言对应的检测字符串和/或语法分析库函数;根据所述检测字符串和/或语法分析库函数判断所述解析得到的字符流是否包含源码,若是,则阻断所述网络数据流。上述专利文献存在以下缺点:(1)通过用户在终端上的操作对来进行风险评估,依据风险评估后的值,进行危险性的判定,不考虑数据本身的内容,容易产生很大的误报率。(2)真实的终端操作行为的异常,未必等价于数据盗取的安全事件。操作行为的异常,涉及到操作者的情绪、工作的临时变动等多重因素,因此不结合其他因素融合考虑,实用性必定不好。
技术实现思路
为解决上述技术问题,本专利技术提供了基于用户行为和文档内容的数据防泄漏分析方法,其特征在于,该方法包括以下步骤:1)分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据,经过数据平均、归一化处理,分别得到该用户的长期行为数据向量和短期行为数据向量;2)计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离,根据计算得到的该向量间距离与预定向量距离阈值的比较结果,确定用户外发邮件行为是否存在异常,如果存在异常,跳转到步骤3),否则跳转到步骤5;3)对于存在异常行为的用户外发邮件,提取邮件内容文档,并判定文档的主题类别;4)根据文档主题类别选定与该类别关联的文本精确匹配策略规则,并采用该匹配策略规则确定文档中是否存在敏感数据;5)结束。根据本专利技术的实施例,优选的,所述步骤1)中的外发邮件行为相关数据包括:邮件发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端IP地址、邮件服务器IP地址。根据本专利技术的实施例,优选的,所述步骤2)中所述用户长期行为数据向量和短期行为数据向量间的向量间距离为马氏距离(MahalanobisDistance),而向量距离阈值由卡方校验方法确定,如果所述向量间距离大于所述向量距离阈值,则判定用户外发邮件行为存在异常。根据本专利技术的实施例,优选的,所述步骤3)中,对提取的邮件文档内容进行分词,然后使用线性判别式分析LDA(LinearDiscriminantAnalysis)方法,根据文档包含的字词内容,判定文档的主题类别。根据本专利技术的实施例,优选的,所述步骤4)中的精确匹配策略规则包括正则表达式匹配策略规则和关键词匹配策略规则。为解决上述技术问题,本专利技术提供了一种基于用户行为和文档内容的数据防泄漏分析系统,其特征在于,该系统包括:数据向量建立模块,分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据,经过数据平均、归一化处理,分别得到该用户的长期行为数据向量和短期行为数据向量;异常确定模块,计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离,根据计算得到的该向量间距离与预定向量距离阈值的比较结果,确定用户外发邮件行为是否存在异常;文档主题类别判定模块,对于存在异常行为的用户外发邮件,提取邮件内容文档,并判定文档的主题类别;精确分析模块,根据文档主题类别选定与该类别关联的文本精确匹配策略规则,并采用该匹配策略规则确定文档中是否存在敏感数据。根据本专利技术的实施例,优选的,所述外发邮件行为相关数据包括:邮件发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端IP地址、邮件服务器IP地址。根据本专利技术的实施例,优选的,所述用户长期行为数据向量和短期行为数据向量间的向量间距离为马氏距离(MahalanobisDistance),而向量距离阈值由卡方校验方法确定;如果异常确定模块确定所述向量间距离大于所述向量距离阈值,则判定用户外发邮件行为存在异常。根据本专利技术的实施例,优选的,文档主题类别判定模块先将待检测的邮件文档统一转换为txt文本文档格式,对提取的邮件文档内容进行分词,然后使用线性判别式分析LDA(LinearDiscriminantAnalysis)方法,根据文档包含的字词内容,判定文档的主题类别。为解决上述技术问题,本专利技术提供了一种计算机可读存储介质,其特征在于,该介质包括计算机程序指令,通过执行所述计算机程序执行实现上述之一的方法。采用本专利技术的技术方案,于用户行为和内容匹配的双重敏感数据外泄检测方法,可以明显提高敏感数据外泄事件判断的准确程度,增强企业对于源代码数据安全管控的能力。该方法能有效降低仅通过内容匹配进行判断的误报率。附图说明图1为本专利技术的分析流程图。具体实施方式本专利技术提出并实现了一种同时考虑数据内容和用户行为的数据外泄检测方法。该方法能在匹配数据内容的基础上考虑用户行为,从而极大的降低了数据防泄漏系统的误报次数。下面结合附图以及具体实施例对本专利技术作进一步的说明,但本专利技术的保护范围并不限于此。<复合分析方法>本专利技术提出的基于用户行为和数据内容的双重监测机制,针对企业数据的敏感度检测需求,有效降低了企业数据防泄漏系统安全事件的误报率。本专利对数据内容的监测,根据主题模式和精确描述匹配模式来进行;对用户行为的监测,主要从时间、数量、外发群落关系等方面进行分析;最后通过逻辑组合的关系,将内容检测和行为检测的结果组合起来。第一级检测:用户行为的异常分析。对企业每个用户的外发邮件行为进行分析,包括以下方面,发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端IP地址、邮件服务器IP地址等。通过分析长时间的用户数据(通常大于三个月),统计得到每个用户的以上各方面的平均数据,并进行归一化处理,从而得到该用户的日常行为数据向量。具体来说,可以通过将需统计的数据项的值减去平均数据值本文档来自技高网
...
基于用户行为和文档内容的数据防泄漏分析方法及系统

【技术保护点】
基于用户行为和文档内容的数据防泄漏分析方法,其特征在于,该方法包括以下步骤:1)分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据,经过数据平均、归一化处理,分别得到该用户的长期行为数据向量和短期行为数据向量;2)计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离,根据计算得到的该向量间距离与预定向量距离阈值的比较结果,确定用户外发邮件行为是否存在异常,如果存在异常,跳转到步骤3),否则跳转到步骤5;3)对于存在异常行为的用户外发邮件,提取邮件内容文档,并判定文档的主题类别;4)根据文档主题类别选定与该类别关联的文本精确匹配策略规则,并采用该匹配策略规则确定文档中是否存在敏感数据;5)结束。

【技术特征摘要】
1.基于用户行为和文档内容的数据防泄漏分析方法,其特征在于,该方法包括以下步骤:1)分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据,经过数据平均、归一化处理,分别得到该用户的长期行为数据向量和短期行为数据向量;2)计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离,根据计算得到的该向量间距离与预定向量距离阈值的比较结果,确定用户外发邮件行为是否存在异常,如果存在异常,跳转到步骤3),否则跳转到步骤5;3)对于存在异常行为的用户外发邮件,提取邮件内容文档,并判定文档的主题类别;4)根据文档主题类别选定与该类别关联的文本精确匹配策略规则,并采用该匹配策略规则确定文档中是否存在敏感数据;5)结束。2.根据权利要求1所述的方法,所述步骤1)中的外发邮件行为相关数据包括:邮件发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端IP地址、邮件服务器IP地址。3.根据权利要求1所述的方法,所述步骤2)中所述用户长期行为数据向量和短期行为数据向量间的向量间距离为马氏距离(MahalanobisDistance),而向量距离阈值由卡方校验方法确定,如果所述向量间距离大于所述向量距离阈值,则判定用户外发邮件行为存在异常。4.根据权利要求1所述的方法,所述步骤3)中,对提取的邮件文档内容进行分词,然后使用线性判别式分析LDA(LinearDiscriminantAnalysis)方法,根据文档包含的字词内容,判定文档的主题类别。5.根据权利要求1所述的方法,所述步骤4)中的精确匹配策略规则包括正则表达式匹配策略规则和关键词匹配策略规则。6.基于用户行为和文档内...

【专利技术属性】
技术研发人员:魏效征王志海喻波安鹏
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1