This application discloses a method, device, device and storage medium for identifying illegal copies of sensitive information. The methods include: obtaining the copy information of the staff to be investigated, and the copy information includes the file name; extracting the feature words corresponding to the work category that does not belong to the staff based on the dictionary library of sensitive information classification; and the dictionary library includes multiple work categories. At least, the extracted feature words are trained by logistic regression, and illegal copies are determined according to the training results. In the scheme mentioned above, the documents copied by employees through dictionary library do not belong to the corresponding feature words of the work category, and the feature words are trained by logistic regression, and the illegal copy is determined according to the training results. When it is determined that there are illegal copies, human intervention and investigation can be carried out to prevent illegal copies of employees from disclosing sensitive information copied.
【技术实现步骤摘要】
敏感信息非法拷贝的识别方法、装置、设备及存储介质
本专利技术一般涉及信息安全领域,具体涉及一种敏感信息非法拷贝的识别方法、装置、设备及存储介质。
技术介绍
随着网络技术及存储技术的发展,对数据、文件等的复制、存储及传送,带来了极大的便利。但是,其也对企业的信息安全带来了极大的挑战,企业敏感信息的泄露事件时有发生。例如,企业中普遍存在,因员工有意无意拷贝企业文件导致的内部数据泄露事件。目前,因无法获得拷贝文件的内部信息和拷贝的用途,从单一的文件名难以及时阻止员工拷贝企业内部数据至私人存储空间的行为,且没有较为完善的敏感信息被非法复制外泄的检测技术。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种敏感信息非法拷贝的识别方法、装置、设备及存储介质,用于对敏感信息是否被非法拷贝进行识别。第一方面,本专利技术提供一种敏感信息非法拷贝的识别方法,包括以下步骤:获取待调查员工的文件拷贝信息,所述文件拷贝信息包括文件名;基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。进一步地,根据岗位和/或职责进行多个所述工作类别的划分。进一步地,对存储的文件的文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,根据分词处理后得到的各词语的语义,将各词语作为特征词存储于词典库的对应工作类别中。进一步地,统计同一岗位员工所拷贝文件的文件名,对所述文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文 ...
【技术保护点】
1.一种敏感信息非法拷贝的识别方法,其特征在于,包括以下步骤:获取待调查的员工的文件拷贝信息,所述文件拷贝信息包括文件名;基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。
【技术特征摘要】
1.一种敏感信息非法拷贝的识别方法,其特征在于,包括以下步骤:获取待调查的员工的文件拷贝信息,所述文件拷贝信息包括文件名;基于敏感信息分类的词典库,提取所述文件名中不属于所述员工的工作类别所对应的特征词,所述词典库包括多个工作类别及各工作类别所对应的多个特征词;至少对提取的特征词进行逻辑回归训练,并根据训练结果确定是否进行了非法拷贝。2.根据权利要求1所述的敏感信息非法拷贝的识别方法,其特征在于,根据岗位和/或职责进行多个所述工作类别的划分。3.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,对存储的文件的文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,根据分词处理后得到的各词语的语义,将各词语作为特征词存储于词典库的对应工作类别中。4.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,统计同一岗位员工所拷贝文件的文件名,对所述文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,若分词处理后得到词语所对应的文件,被大于预定比例的该岗位员工拷贝,则将其作为该岗位的特征词,存储于词典库中该岗位所对应的工作类别中。5.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,统计同一部门不同岗位员工所拷贝文件的文件名,对所述文件名进行过滤,滤除异常英文字符及符号,并对过滤后的文件名进行分词处理,若分词处理后得到词语所对应的文件,被大于预定比例的该部门员工拷贝,则将其作为该部门的特征词,存储于词典库中该部门所对应的工作类别中。6.根据权利要求1或2所述的敏感信息非法拷贝的识别方法,其特征在于,所述至少对提取的特征词进行逻辑回归训...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。