敏感信息非法拷贝的识别方法、装置、设备及存储介质制造方法及图纸

技术编号:21225060 阅读:81 留言:0更新日期:2019-05-29 05:48
本申请公开了一种敏感信息非法拷贝的识别方法、装置、设备及存储介质,其中,方法包括:获取待调查员工的文件拷贝信息,文件拷贝信息包括文件名;基于敏感信息分类的词典库,提取文件名中不属于员工的工作类别所对应的特征词,词典库包括多个工作类别及各工作类别所对应的多个特征词;至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。上述方案中,通过词典库来提取的员工所拷贝的文件中,不属于工作类别所对应的特征词,并对特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。在确定为存在非法拷贝的情况时,可以进行人为的干预、调查,阻止非法拷贝的员工将所拷贝的敏感信息泄露。

Recognition Method, Device, Equipment and Storage Medium for Illegal Copy of Sensitive Information

This application discloses a method, device, device and storage medium for identifying illegal copies of sensitive information. The methods include: obtaining the copy information of the staff to be investigated, and the copy information includes the file name; extracting the feature words corresponding to the work category that does not belong to the staff based on the dictionary library of sensitive information classification; and the dictionary library includes multiple work categories. At least, the extracted feature words are trained by logistic regression, and illegal copies are determined according to the training results. In the scheme mentioned above, the documents copied by employees through dictionary library do not belong to the corresponding feature words of the work category, and the feature words are trained by logistic regression, and the illegal copy is determined according to the training results. When it is determined that there are illegal copies, human intervention and investigation can be carried out to prevent illegal copies of employees from disclosing sensitive information copied.

【技术实现步骤摘要】
敏感信息非法拷贝的识别方法、装置、设备及存储介质
本专利技术一般涉及信息安全领域,具体涉及一种敏感信息非法拷贝的识别方法、装置、设备及存储介质。
技术介绍
随着网络技术及存储技术的发展,对数据、文件等的复制、存储及传送,带来了极大的便利。但是,其也对企业的信息安全带来了极大的挑战,企业敏感信息的泄露事件时有发生。例如,企业中普遍存在,因员工有意无意拷贝企业文件导致的内部数据泄露事件。目前,因无法获得拷贝文件的内部信息和拷贝的用途,从单一的文件名难以及时阻止员工拷贝企业内部数据至私人存储空间的行为,且没有较为完善的敏感信息被非法复制外泄的检测技术。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种敏感信息非法拷贝的识别方法、装置、设备及存储介质,用于对敏感信息是否被非法拷贝进行识别。第一方面,本专利技术提供一种敏感信息非法拷贝的识别方法,包括以下步骤:获取待调查员工的文件拷贝信息,所述文件拷贝信息包括文件名;基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。进一步地,根据岗位和/或职责进行多个所述工作类别的划分。进一步地,对存储的文件的文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,根据分词处理后得到的各词语的语义,将各词语作为特征词存储于词典库的对应工作类别中。进一步地,统计同一岗位员工所拷贝文件的文件名,对所述文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,若分词处理后得到词语所对应的文件,被大于预定比例的该岗位员工拷贝,则将其作为该岗位的特征词,存储于词典库中该岗位所对应的工作类别中。进一步地,统计同一部门不同岗位员工所拷贝文件的文件名,对所述文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,若分词处理后得到词语所对应的文件,被大于预定比例的该部门员工拷贝,则将其作为该部门的特征词,存储于词典库中该部门所对应的工作类别中。进一步地,所述至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝,具体为:对敏感时间特征、拷贝文件的文件时间特征、预离职人员特征及提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝;其中,晚上10:00至次日上午7:00为敏感时间特征;预定时间段内连续复制各年文件数超过预定数量为拷贝文件的文件时间特征;提交了离职申请但未办结离职手续的员工为预离职人员特征。进一步地,在进行逻辑回归训练时,同时对待调查员工非允许拷贝特征词对应的文件数量、文件大小及其在词典库中所对应的主类数量进行训练。进一步地,对确定为未非法拷贝但风险级别为中风险的员工,进行连续多天的识别,在进行下次逻辑回归训练时,同时对识别为中风险的天数进行训练。第二方面,本专利技术提供一种敏感信息非法拷贝的识别装置,包括:文件拷贝信息获取单元,用于获取待调查员工的文件拷贝信息,所述文件拷贝信息包括文件名;特征词提取单元,用于基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;逻辑回归训练单元,用于至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。第三方面,本专利技术提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。上述方案中,通过词典库来提取的员工所拷贝的文件中,不属于工作类别所对应的特征词,并对特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。在确定为存在非法拷贝的情况时,可以进行人为的干预、调查,阻止非法拷贝的员工将所拷贝的敏感信息泄露。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本专利技术的实施例提供的敏感信息非法拷贝的识别方法的流程图;图2为本专利技术的实施例提供的敏感信息非法拷贝的识别装置的原理图;图3为本专利技术的实施例提供的计算机设备的原理图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。如图1所示,本专利技术实施例提供一种敏感信息非法拷贝的识别方法,包括以下步骤:S1:获取待调查的员工的文件拷贝信息,所述文件拷贝信息包括文件名;一般,企业中搭建的有服务器,上面用来安装各种工作软件,存放各种工作文件,用户通过对应的账户登录服务器来软件操作、文件拷贝等操作,服务器内可以安装有监控、记录类的软件,来记录用户的操作情况,例如,记录用户合适拷贝了什么文件,何时登录了什么软件等等。在未搭建服务器的企业中,可以在员工个人使用的电脑上安装监控、记录类的软件,来记录员工的操作情况,例如,记录用户合适拷贝了什么文件,何时登录了什么软件等等。待调查的员工可以是全员,也可以是特定的员工,例如预离职的员工等。为了提高识别的针对性,可以先有调查人员对所要调查的员工进行预筛选,例如将一定时间(例如一天)内进行了较多件或较大容量文件的拷贝的员工划分到正样本内,否则划分到负样本内,将正样本内的员工作为待调查的员工。并获取正样本中员工的文件拷贝信息。S2:基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;这里所说的词典库可以但不限于为工作类别与特征词的映射列表,工作类别可以是一级类别,也可以是多级类别(由大类(或称之为主类)向下引申小类(或称之为从类或子类))。工作类别可以由与岗位和职责特点相关的敏感信息来确定,例如可以分为员工类、运营类、财务类、战略类、投资并购类、安保类、审计类等几大类,每一大类下面还可以根据需要设置小类而形成多级的工作类别。每一大类或每一小类都对应有特征词。例如财务岗位的归入财务类,人力资源岗位归入员工类等。各工作类别可以用工作类别的名称直接表示,也可以通过代号来表示,例如,用yg表示员工类、yy表示运营类、cw表示财务类、zl表示战略类、tzbg表示投资并购类、ab表示安保类、sj表示审计类等,或者用数字001表示员工类、002表示运营类、003表示财务类、004表示战略类、005表示投资并购类、006表示安保类、007表示审计类等。该实施例中,词典库中的工作类别以一级类别为例进行说明。下表为该实施例中词典库的示例,其仅是用于说明词典库的构成,并非对词典库的唯一限定。根据表词典库,提取文件名中不属于相应员工的工作类别所对应的特征词。例如,员工A是人事部的员工,其所属的工作类别应为员工类,其被调查的文件中所抽取的特征词为薪本文档来自技高网...

【技术保护点】
1.一种敏感信息非法拷贝的识别方法,其特征在于,包括以下步骤:获取待调查的员工的文件拷贝信息,所述文件拷贝信息包括文件名;基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。

【技术特征摘要】
1.一种敏感信息非法拷贝的识别方法,其特征在于,包括以下步骤:获取待调查的员工的文件拷贝信息,所述文件拷贝信息包括文件名;基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。2.根据权利要求1所述的敏感信息非法拷贝的识别方法,其特征在于,根据岗位和/或职责进行多个所述工作类别的划分。3.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,对存储的文件的文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,根据分词处理后得到的各词语的语义,将各词语作为特征词存储于词典库的对应工作类别中。4.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,统计同一岗位员工所拷贝文件的文件名,对所述文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,若分词处理后得到词语所对应的文件,被大于预定比例的该岗位员工拷贝,则将其作为该岗位的特征词,存储于词典库中该岗位所对应的工作类别中。5.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,统计同一部门不同岗位员工所拷贝文件的文件名,对所述文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,若分词处理后得到词语所对应的文件,被大于预定比例的该部门员工拷贝,则将其作为该部门的特征词,存储于词典库中该部门所对应的工作类别中。6.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,所述至少对提取的特征词进行逻辑回归训...

【专利技术属性】
技术研发人员:郑明胡泽柱
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1