基于用户行为和文档内容的数据防泄漏分析方法及系统技术方案

技术编号：17917653 阅读：40 留言：0更新日期：2018-05-10 21:28

本发明专利技术公开了基于用户行为和文档内容的数据防泄漏分析方法及系统，该方法包括以下步骤：分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据，经过数据平均、归一化处理，分别得到该用户的长期行为数据向量和短期行为数据向量；根据所述用户长期行为数据向量和短期行为数据向量间的向量间距离与预定向量距离阈值的比较结果，确定用户外发邮件行为是否存在异常；对于存在异常行为的用户外发邮件，提取邮件内容文档，并判定文档的主题类别；根据文档主题类别选定与该类别关联的文本精确匹配策略规则，确定文档中是否存在敏感数据。通过本发明专利技术的技术方案，可以明显提高敏感数据外泄事件判断的准确程度，有效降低仅通过内容匹配进行判断的误报率。

全部详细技术资料下载

【技术实现步骤摘要】
基于用户行为和文档内容的数据防泄漏分析方法及系统
本专利技术涉及数据安全领域，具体涉及基于用户行为和文档内容的数据防泄漏分析方法及系统。
技术介绍
企业数据防泄漏系统的主要功能是防止企业员工外发敏感数据。因此，准确判断员工外发的数据是否敏感，是数据防泄漏系统的关键。传统的手段是通过精确匹配的手段，例如关键词或正则表达式的命中次数来实现，往往容易产生很多误报。因此数据防泄漏系统迫切需要考虑更多的因素，来判定企业员工的外发数据行为是否安全事件。对比文献1公开号：105357217A，专利技术名称：基于用户行为分析的数据盗取风险评估方法和系统该现有技术通过对内网终端用户的网络行为进行分析，发现存在风险操作的潜在终端，保护数据安全，提高内部网络的安全性。该现有技术通过获取终端用户的操作行为对；根据所述操作行为对，获取危险操作行为对和危险操作行为对数，计算第一危险性系数；根据所述危险操作行为对，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数；根据拷贝行为，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数和第四危险性系数；根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数，采用预设的风险评估模型计算终端危险性系数。上述现有技术根据终端的操作对计算危险系数，包括：拦截网络数据流；对所述网络数据流进行协议解析得到字符流；获取预设的与程序语言对应的检测字符串和/或语法分析库函数；根据所述检测字符串和/或语法分析库函数判断所述解析得到的字符流是否包含源码，若是，则阻断所述网络数据流。上述专利文献存在以下缺点：(1)通过用户...
基于用户行为和文档内容的数据防泄漏分析方法及系统

【技术保护点】
基于用户行为和文档内容的数据防泄漏分析方法，其特征在于，该方法包括以下步骤：1)分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据，经过数据平均、归一化处理，分别得到该用户的长期行为数据向量和短期行为数据向量；2)计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离，根据计算得到的该向量间距离与预定向量距离阈值的比较结果，确定用户外发邮件行为是否存在异常，如果存在异常，跳转到步骤3)，否则跳转到步骤5；3)对于存在异常行为的用户外发邮件，提取邮件内容文档，并判定文档的主题类别；4)根据文档主题类别选定与该类别关联的文本精确匹配策略规则，并采用该匹配策略规则确定文档中是否存在敏感数据；5)结束。

【技术特征摘要】
1.基于用户行为和文档内容的数据防泄漏分析方法，其特征在于，该方法包括以下步骤：1)分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据，经过数据平均、归一化处理，分别得到该用户的长期行为数据向量和短期行为数据向量；2)计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离，根据计算得到的该向量间距离与预定向量距离阈值的比较结果，确定用户外发邮件行为是否存在异常，如果存在异常，跳转到步骤3)，否则跳转到步骤5；3)对于存在异常行为的用户外发邮件，提取邮件内容文档，并判定文档的主题类别；4)根据文档主题类别选定与该类别关联的文本精确匹配策略规则，并采用该匹配策略规则确定文档中是否存在敏感数据；5)结束。2.根据权利要求1所述的方法，所述步骤1)中的外发邮件行为相关数据包括：邮件发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端IP地址、邮件服务器IP地址。3.根据权利要求1所述的方法，所述步骤2)中所述用户长期行为数据向量和短期行为数据向量间的向量间距离为马氏距离(MahalanobisDistance)，而向量距离阈值由卡方校验方法确定，如果所述向量间距离大于所述向量距离阈值，则判定用户外发邮件行为存在异常。4.根据权利要求1所述的方法，所述步骤3)中，对提取的邮件文档内容进行分词，然后使用线性判别式分析LDA(LinearDiscriminantAnalysis)方法，根据文档包含的字词内容，判定文档的主题类别。5.根据权利要求1所述的方法，所述步骤4)中的精确匹配策略规则包括正则表达式匹配策略规则和关键词匹配策略规则。6.基于用户行为和文档内...

【专利技术属性】
技术研发人员：魏效征，王志海，喻波，安鹏，
申请(专利权)人：北京明朝万达科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人