一种基于关键字技术的数据防泄漏方法技术

技术编号:17033322 阅读:169 留言:0更新日期:2018-01-13 19:38
本发明专利技术公开了一种基于关键字技术的数据防泄漏方法,包括以下步骤:第一步,对业务流程进行数据调研,找出业务流程中涉及的敏感数据;第二步,数据泄露风险评估;第三步,数据定义:通过关键字技术对各种场景下各种文档模型进行预先定义,找出能够表征数据价值的关键字体系,扫描待检测数据,通过是否被命中关键字来判断是否属于敏感数据;第四步,敏感数据监控和阻止,处理抓到的恶意企图和恶意事件。本发明专利技术确保在任何位置任何使用方式下,数据泄露风险都能得到有效降低,提升了数据泄露防护的工作效率;保护了用户终端上非结构化数据的安全,使数据泄露防护工作更加规范化、标准化和智能化。

【技术实现步骤摘要】
一种基于关键字技术的数据防泄漏方法
本专利技术涉及一种数据防泄漏方法,尤其涉及一种应用于石油石化企业中、基于关键字技术的非结构化数据防泄漏方法,属于数据防泄漏

技术介绍
数据作为企业的核心资产,国内外大量敏感数据的泄露会对企业利益带来巨大的损害,包括客户流失、信誉度下降、核心技术丢失、事件曝光造成声誉损失、法律问题和经济赔偿等。根据专业数据泄露防护研究机构统计,89%的企业遭受过敏感信息泄露;超过85%的安全泄密来自企业内部,经济损失达6056.5亿美元,是黑客造成损失的16倍,是病毒造成损失的12倍。目前市场上成熟的数据泄露防护(简称DLP)系统能侦测到敏感内容并阻止它,或者在传输前进行加密,任何需要保护敏感数据的企业都需要数据泄露防护(DLP)技术的帮助。伴随着信息系统的依赖性增加,石油石化企业的数据量、数据重要性日益增大,随之增大的还有数据泄露风险。作为拥有大量关键核心数据的龙头国企,数据泄露对于石油石化企业而言不仅仅是经济损失,更有可能影响到国家机密,导致不可估量的后果。保证各类业务敏感数据不被泄露,已经成为石油石化企业信息化建设过程中的迫切需求和需要重视的问题。石油石化企业数据安全现状:虽然目前国内外厂商已经基于不同用户需求开发出了数据泄露防护产品,石油石化企业也制定了初步的数据定义和管控策略,但是石油石化企业在实施数据安全工作过程中普遍存在数据资产识别不充分,方法落地难,DLP设置策略的制定不够客观和充分,数据泄露防护场景考虑不全面等问题。信息安全建设更多的考虑了人员和数据,而忽视了业务流程和特定场景等重要因素。在技术层面,没有完整的对石油石化企业的敏感数据进行调研和梳理,识别出石油石化企业需要防护的敏感数据,DLP策略的制定仅仅依靠安全产品的内定策略和技术人员的主观决定。在管理层面,石油石化企业的现有数据安全工作更多的是在企业层面对数据进行宏观的定义,没有深入到特定业务部门对数据进行有针对性的细分,导致业务部门对数据安全感知度不高,信息中心对数据敏感程度把握不够,数据泄露防护工作的效果有限。根据业界分析,大批量数据的典型泄露主要通过网络和终端两种途径,但本质上数据泄露还是发生在终端,真正的数据保护需要在终端实现。由于工作流程的不完善,以及日常工作中的不规范行为导致的敏感数据泄露时有发生。对于每天使用这些数据的员工来说,已经对这些数据的敏感性及数据对企业的重要性日渐麻木,因此时常会通过终端有意无意地(例如发送邮件)轻易将某些数据外发出去。为了工作方便,有时也会将某些数据上传到网盘或共享空间等。甚至有些员工只是为了炫耀个人的才能,而将自己新编写的代码或者设计图纸上传至专业网站或论坛等与人分享。这使得企业敏感数据遭到外泄,企业自身损失惨重。因此,关注终端通过邮件、web通道、U盘拷贝、刻录、打印等通道泄露敏感信息已经变得尤其重要。另外,信息分为结构化数据和非结构化数据,我们都知道结构化数据是怎样的,并知道它驻留在哪里,所以必须严格地控制谁能访问它,对于结构化数据,定义和应用安全控制相对简单,可以使用结构内置的特性或者专门的特定设计的第三方工具。相比之下,非结构化数据更难以管理和保护。非结构化数据能存在任何地方,以任何形式,在任何设备上,能够跨越任何网络。试想一下,假如一个客户的个人信息从数据库中提取出来,显示在一个网页上,并将其从网页中复制到数据表格中,附在电子邮件中,然后发送到另外的位置。非结构化数据没有严格的格式。当然,WORD文档和电子邮件等符合定义它们内部结构的标准,然而,它们其中包含的数据是没有限制的。回到客户信息的例子,假设员工从其网页上复制到数据表格中,其内容会被修改,如可能删除了某些字段和标题。因为这个信息从一个格式转换成了另一种格式,它原始的结构被有效地改变了。石油石化企业中,80%以上的电子信息都是非结构化的,而且非结构化的数据增长的速度是结构化数据增长速度的10-20倍。再考虑下,屡见不鲜的知识产权的窃取、敏感信息的意外丢失,以及数据的恶意使用,最核心的问题都是非结构化的数据。在2010年,全球非结构数据的总量大概有100万PB,而且正在以每年25%的速度增加。显然,我们急需了解如何保护非结构化数据的安全。非结构化数据在任何给定时间处在以下状态之一。它可以是静止的,安静地存储在终端上,它可以是在传输过程中,有时候也被称为“运动中”,意思是它从一个地方被复制到另一个地方,或者它也可以在使用中,在这种情况下,数据正被一些应用程序打开着。比如一个PDF文件。它可以以静止的状态存储在一个USB设备上。可以从USB设备上复制同一个PDF文件,并将其附在电子邮件发送到互联网上。PDF文件从USB设备上被复制,通过很多传输状态到达电子邮件服务器,并沿着网络从一个信箱传到另一个信箱。最后,收件人收到邮件,打开PDF文件,此时非结构化数据处于使用状态——驻留在内存中,在一个应用程序的控制下,如Adobe阅读器,并被呈现给拥有相应读写权限的用户。非结构化数据不断发生变化,数据终结在你未预期的地方,特别是互联网提供了令人难以置信由擅长传输非结构化数据的计算机组成的大型网络。企业投入大量的金钱和精力建设社交网络、文件共享和协同服务。点对点的应用提供了无数种将非结构化数据在几秒钟内发布给数十亿用户的方法。因此,用来阻止攻击者访问保护数据的网络控制保证已经再也无法安全了。
技术实现思路
本专利技术的目的在于:结合石油石化企业在实施数据泄露防护项目的过程中,遇到数据定义不清晰,数据分类分级制度难以落地,DLP策略制定过于依赖个人主观决策等问题,针对这些问题,提供一种基于关键字技术的数据防泄漏方法,有效的解决上述现有技术存在的技术问题。本专利技术的技术专利技术是这样实现的:一种基于关键字技术的数据防泄漏方法,包括以下步骤:第一步,对业务流程进行数据调研:连接业务流程,找出业务流程中涉及的敏感数据;第二步,数据泄露风险评估:建立数据分类分级与策略管理平台,从流程管理和安全技术两个方面对安全风险进行评定;第三步,数据定义:通过关键字技术对各种场景下各种文档模型进行预先定义,找出能够表征数据价值的关键字体系,扫描待检测数据,通过是否被命中关键字来判断是否属于敏感数据;第四步,敏感数据监控和阻止,处理抓到的恶意企图和恶意事件。作为优选方式之一:在第三步中,判断是否属于敏感数据的具体方法为:把关键字进行组合,形成关键字词典;然后将关键字的出现频度作为参考依据形成一套查询对照蓝本,扫描待检测数据时,统计敏感关键字词典中被命中的敏感关键字数量,如果命中的敏感关键字数量符合蓝本中定制好的阀值,则这个待检测数据就属于敏感数据。作为优选方式之一:预先定义文档是否是敏感信息的方法:首先,进行敏感文件的学习和训练,拿到敏感内容的文档,然后采用语义分析的技术进行分词,提出需要学习和训练的敏感信息文档的指纹模型,再对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度去确认被检测文档是否为敏感信息。作为优选方式之一:指纹模型包括文档结构化数据指纹和非结构化数据指纹。作为优选方式之一:在第一步中,找出业务流程中涉及的敏感数据的方法为:将文件内容的哈希值与预先获取和配置的哈希值进行比较,如果相同,则表示本文档来自技高网
...
一种基于关键字技术的数据防泄漏方法

【技术保护点】
一种基于关键字技术的数据防泄漏方法,其特征在于:包括以下步骤:第一步,对业务流程进行数据调研:连接业务流程,找出业务流程中涉及的敏感数据;第二步,数据泄露风险评估:建立数据分类分级与策略管理平台,从流程管理和安全技术两个方面对安全风险进行评定;第三步,数据定义:通过关键字技术对各种场景下各种文档模型进行预先定义,找出能够表征数据价值的关键字体系,扫描待检测数据,通过是否被命中关键字来判断是否属于敏感数据;第四步,敏感数据监控和阻止,处理抓到的恶意企图和恶意事件。

【技术特征摘要】
1.一种基于关键字技术的数据防泄漏方法,其特征在于:包括以下步骤:第一步,对业务流程进行数据调研:连接业务流程,找出业务流程中涉及的敏感数据;第二步,数据泄露风险评估:建立数据分类分级与策略管理平台,从流程管理和安全技术两个方面对安全风险进行评定;第三步,数据定义:通过关键字技术对各种场景下各种文档模型进行预先定义,找出能够表征数据价值的关键字体系,扫描待检测数据,通过是否被命中关键字来判断是否属于敏感数据;第四步,敏感数据监控和阻止,处理抓到的恶意企图和恶意事件。2.根据权利要求1所述的基于关键字技术的数据防泄漏方法,其特征在于:在第三步中,判断是否属于敏感数据的具体方法为:把关键字进行组合,形成关键字词典;然后将关键字的出现频度作为参考依据形成一套查询对照蓝本,扫描待检测数据时,统计敏感关键字词典中被命中的敏感关键字数量,如果命中的敏感关键字数量符合蓝本中定制好的阀值,则这个待检测数据就属于敏感数据。3.根据权利要求1所述的基于关键字技术的数据防泄漏方法,其特征在于:预先定义文档是否是敏感信息的方法:首先,进行敏感文件的学习和训练,拿到敏感内容的文档,然后采用语义分析的技术进行分词,提出需要学习和训练的敏感信息文档的指纹模型,再对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度去确认被检测文档是否为敏感信息。4.根据权利要...

【专利技术属性】
技术研发人员:梁泰崧兰宇张宇江涛蒲旺冷炜鑭
申请(专利权)人:中国石油集团川庆钻探工程有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1