The invention discloses a method and a system for realizing data leakage protection, the method includes: pretreatment of text data preprocessing, the formation of vector data; vector data as input data of MEDOIDS clustering algorithm and K according to predetermined rules for unsupervised learning, clustering model formed by clustering model; outside file check out, determine whether the file is leaked documents, if it is not allowed to send files, otherwise, allowing the outward outward file. Using K MEDOIDS clustering algorithm, the preprocessing of text data for unsupervised learning training, through the clustering model of foreign documents were detected, so as to solve the traditional DLP technology, EDM and IDM advanced detection technology in the keywords to find the more rigid problems, based detection technology in the detection of modify the contents of the documents is not out of the question at the same time, the K MEDOIDS algorithm category number does not affect the clustering results than the SVM algorithm in flexible, replaced the detection results under the condition of keywords will not affect the file.
【技术实现步骤摘要】
一种实现数据泄露防护的方法和系统
本专利技术涉及信息安全
,特别涉及一种实现数据泄露防护的方法和系统。
技术介绍
随着信息技术的飞速发展,计算机和网络已成为日常办公、通讯交流和协作互动的必备工具和途径。但是,信息系统在提高工作效率的同时,也对信息的存储、访问控制及信息系统中的计算机终端及服务器的访问控制提出了安全需求。据国家计算机信息安全测评中心数据显示,由于内部重要机密数据通过网络泄露而造成经济损失的单位中,97%都是由于内部员工有意或者无意之间泄露而造成的。DLP(DataLeakagePrevention,数据泄漏防护)技术日渐成为目前最为重要的安全技术之一。目前,DLP技术大致可以分为两大类:基础检测技术和高级检测技术。其中,基础检测技术通常有三种方式:正则表达式检测(标示符)、关键字和关键字对检测、文档属性检测;高级检测技术通常也有三种方式:精确数据比对(EDM)、指纹文档比对(IDM)、向量分类比对(SVM)。但是,对于现有的技术来说,基础检测技术相对死板,如果用户有意修改敏感关键字,那么采用基础检测技术就不能有效的检测出包含敏感信息文件。高级检 ...
【技术保护点】
一种实现数据泄露防护的方法,其特征在于,该方法包括:对预处理文本数据进行预处理,形成向量数据;将向量数据作为K‑MEDOIDS聚类算法的输入数据并且按照预设规则进行无监督学习,形成聚类模型;通过聚类模型对外发文件进行检查,判断外发文件是否为泄密文件,若是,则不允许外发文件外发;否则,允许外发文件外发。
【技术特征摘要】
1.一种实现数据泄露防护的方法,其特征在于,该方法包括:对预处理文本数据进行预处理,形成向量数据;将向量数据作为K-MEDOIDS聚类算法的输入数据并且按照预设规则进行无监督学习,形成聚类模型;通过聚类模型对外发文件进行检查,判断外发文件是否为泄密文件,若是,则不允许外发文件外发;否则,允许外发文件外发。2.根据权利要求1所述的实现数据泄露防护的方法,其特征在于,在对预处理文本数据进行预处理之前,进一步包括:收集文本数据,并筛选出具有预设特征的文本数据作为进行预处理的预处理文本数据。3.根据权利要求1所述的实现数据泄露防护的方法,其特征在于,对预处理文本数据进行预处理形成向量数据,包括如下步骤:对预处理文本数据进行文本分词,形成分词文本数据;去除分词文本数据中的停用词,形成去停用词文本数据;对去停用词文本数据进行文档频率DF特征提取,形成特征文本数据;对特征文本数据进行TF-IDF词频统计,确定特征文本数据的权重;根据特征文本数据的权重,将特征文本数据进行向量化,形成向量数据。4.根据权利要求1所述的实现数据泄露防护的方法,其特征在于,在通过聚类模型对外发文件进行检查之前,进一步包括:将聚类模型上传至服务器;由服务器将聚类模型配置在客户端,当客户端向外发送外发文件时,拦截该外发文件,并将该外发文件发送到聚类模型。5.根据1至4任一权利要求所述的实现数据泄露防护的方法,其特征在于,在不允许外发文件外发之后,进一步包括:对外发文件进行审批,判断是否为策略放行文件,若是,则允许外发文件外发,否则,禁止外发文件外发。6.一种实现数据泄露防护的系统,其特征在于,该系统包括:处理模块、聚类模块和检查模块,其中,处理模块,用于对预...
【专利技术属性】
技术研发人员:高学伟,陶亚虎,熊天舒,
申请(专利权)人:北京北信源软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。