文件安全管理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:29936462 阅读:24 留言:0更新日期:2021-09-04 19:13
本申请提供了一种文件安全管理方法、装置、设备及计算机可读存储介质。上述方法包括:当检测到对文件的操作动作时,基于文件的文件归属的排他敏感词确定文件的安全层级;基于文件的安全层级,检测操作动作的控制权限是否在文件的访问权限内,在控制权限不在访问权限的范围内的情况下,禁止操作动作,文件归属包括多个下一级文件归属,且每个下一级文件归属对应唯一常用词汇,通过合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词,并通过去除多个候选词中重复的词汇以获得排他敏感词。根据该文件安全管理方法,通过大数据挖掘自动地获取文件归属的排他敏感词,并基于此确定文件的安全层级可大幅度降低文件操作中安全警示的误报率。安全警示的误报率。安全警示的误报率。

【技术实现步骤摘要】
文件安全管理方法、装置、设备及计算机可读存储介质


[0001]本申请涉及人工智能
,更具体地,涉及文件安全管理方法、文件安全管理装置、文件安全管理设备及计算机可读存储介质。

技术介绍

[0002]常规的文件安全管理方法中确定对文件的操作动作是否在该文件的访问权限内,通常采用敏感字过滤的方法。由于敏感字过滤相对于别的语义过滤实现简单,过滤速度快,因此目前己成为绝大多数过滤系统采用的主要方法。
[0003]然而,基于人为经验选定的敏感字具有难选定、易遗漏和易冗余的特点,因此导致文件的敏感程度难以衡量,并且不易基于敏感字设定文件安全层级。因而,在常规的文件安全管理方法中对相应文件执行操作动作判定时难以基于合适的文件安全层级确定操作动作的控制权限是否在该文件的访问权限内,因此导致文件操作中安全警示的误报率较高,给企业的信息安全管理带来风险。

技术实现思路

[0004]本申请提供了一种可至少部分解决相关技术中存在的上述问题的文件安全管理方法、文件安全管理装置、文件安全管理设备及计算机可读存储介质。
[0005]本申请一方面提供了一种文件安全管理方法,所述方法包括:当检测到对文件的操作动作时,基于所述文件的文件归属的排他敏感词确定所述文件的安全层级;以及基于所述文件的安全层级,检测所述操作动作的控制权限是否在所述文件的访问权限内,在所述控制权限不在所述访问权限的范围内的情况下,禁止所述操作动作,其中,所述文件归属包括多个下一级文件归属,且每个所述下一级文件归属对应唯一常用词汇,通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词,并通过去除多个所述候选词中重复的词汇以获得所述排他敏感词。
[0006]在本申请一个实施方式中,所述文件归属为文件的归属部门或文件的归属人员。
[0007]在本申请一个实施方式中,通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词的步骤包括:获取每个所述下一级文件归属所包括的多个样本文件;基于所述多个样本文件,确定每个所述下一级文件归属的所述常用词汇;以及合并至少任意两个所述常用词汇中相同的词汇以获得所述候选词。
[0008]在本申请一个实施方式中,基于所述多个样本文件,确定每个所述下一级文件归属的所述常用词汇的步骤包括:获取所述样本文件的文本数据,并将所述文本数据中的任一组重复词汇合并为一个词汇;将多个合并后的所述样本的文本数据再次合并以形成所述下一级文件归属的历史词汇;以及基于所述历史词汇,确定所述下一级文件归属的所述常用词汇,其中,任一所述常用词汇的权重与其在所述下一级文件归属的历史词汇中的出现频率成正比。
[0009]在本申请一个实施方式中,基于所述历史词汇,提取所述下一级文件归属的常用
词汇的步骤包括:确定任一所述历史词汇的出现频率;去除所述历史词汇中仅出现一次的词汇;以及提取所述历史词汇中出现频率相对较高的S个词汇作为所述下一级文件归属的常用词汇,其中S为大于等于1的任意正整数。
[0010]在本申请一个实施方式中,所述S个词汇满足:S=Y+3
×
M,其中,Y为所述历史词汇的出现频率的平均值;以及M为所述历史词汇的出现频率的标准方差值。
[0011]在本申请一个实施方式中,获取所述样本文件的文本数据的步骤包括:获取所述样本文件;以及对所述样本文件进行分词处理以获取所述样本文件的文本数据。
[0012]在本申请一个实施方式中,当检测到文件的操作动作后,所述方法还包括确定所述文件的文件归属的步骤,确定所述文件的文件归属包括:
[0013]获取所述文件;对所述文件进行分词处理以获取所述文件的文本数据;以及基于所述文件的文本数据与所述文件归属的排他敏感词确定所述文件的文件归属。
[0014]在本申请一个实施方式中,其中所述文件归属和所述安全层级分别记载于文件归属配置表单和安全层级配置表单中,所述方法还包括:实时更新所述文件归属配置表单和所述安全层级配置表单。
[0015]本申请另一方面提供了一种文件安全管理装置,所述装置包括:确定模块,所述确定模块被配置为当检测到对文件的操作动作时,基于所述文件归属的排他敏感词确定所述文件的安全层级,其中所述文件归属包括多个下一级文件归属,且每个所述下一级文件归属对应唯一常用词汇,通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词,并通过去除多个所述候选词中重复的词汇以获得所述排他敏感词;以及检测模块,所述检测模块被配置为基于所述文件的安全层级,检测所述操作动作的控制权限是否在所述文件的访问权限内,在所述控制权限不在所述访问权限的范围内的情况下,禁止所述操作动作。
[0016]在本申请一个实施方式中,所述文件归属为文件的归属部门或归属人员。
[0017]在本申请一个实施方式中,所述确定模块被进一步配置为获取每个所述下一级文件归属所包括的多个样本文件;基于所述多个样本文件,确定每个所述下一级文件归属的所述常用词汇;以及合并至少任意两个所述常用词汇中相同的词汇以获得所述候选词。
[0018]在本申请一个实施方式中,所述确定模块被进一步配置为获取所述样本文件的文本数据,并将所述文本数据中的任一组重复词汇合并为一个词汇;将多个合并后的所述样本的文本数据再次合并以形成所述下一级文件归属的历史词汇;以及基于所述历史词汇,确定所述下一级文件归属的常用词汇,其中,任一所述常用词汇的权重与其在所述下一级文件归属的历史词汇中的出现频率成正比。
[0019]在本申请一个实施方式中,所述确定模块被进一步配置为确定任一所述历史词汇的出现频率;去除所述历史词汇中仅出现一次的词汇;以及提取所述历史词汇中出现频率相对较高的S个词汇作为所述下一级文件归属的常用词汇,其中S为大于等于1的任意正整数。
[0020]在本申请一个实施方式中,所述S个词汇满足:S=Y+3
×
M,其中,Y为所述历史词汇的出现频率的平均值;以及M为所述历史词汇的出现频率的标准方差值。
[0021]在本申请一个实施方式中,所述文件安全管理装置还包括获取模块,所述获取模块被配置为获取所述样本文件;以及对所述样本文件进行分词处理以获取所述样本文件的
文本数据。
[0022]在本申请一个实施方式中,所述文件安全管理装置还包括获取模块,所述获取模块被配置为获取所述文件;且对所述文件进行分词处理以获取所述文件的文本数据;以及所述确定模块被进一步配置为基于所述文件的文本数据与所述文件归属的排他敏感词确定所述文件的文件归属。
[0023]在本申请一个实施方式中,其中所述文件归属和所述安全层级分别记载于文件归属配置表单和安全层级配置表单中,实时更新所述文件归属配置表单和所述安全层级配置表单。
[0024]本申请又一方面提供了文件管理设备,所述文件管理设备包括:处理器;以及存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行本申请一方面提供的任一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件安全管理方法,其特征在于,包括:当检测到对文件的操作动作时,基于所述文件的文件归属的排他敏感词确定所述文件的安全层级;以及基于所述文件的安全层级,检测所述操作动作的控制权限是否在所述文件的访问权限内,在所述控制权限不在所述访问权限的范围内的情况下,禁止所述操作动作,其中,所述文件归属包括多个下一级文件归属,且每个所述下一级文件归属对应唯一常用词汇,通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词,并通过去除多个所述候选词中重复的词汇以获得所述排他敏感词。2.根据权利要求1所述的方法,其特征在于,所述文件归属为文件的归属部门或文件的归属人员。3.根据权利要求1或2所述的方法,其特征在于,通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词的步骤包括:获取每个所述下一级文件归属所包括的多个样本文件;基于所述多个样本文件,确定每个所述下一级文件归属的所述常用词汇;以及合并至少任意两个所述常用词汇中相同的词汇以获得所述候选词。4.根据权利要求3所述的方法,其特征在于,基于所述多个样本文件,确定每个所述下一级文件归属的所述常用词汇的步骤包括:获取所述样本文件的文本数据,并将所述文本数据中的任一组重复词汇合并为一个词汇;将多个合并后的所述样本的文本数据再次合并以形成所述下一级文件归属的历史词汇;以及基于所述历史词汇,确定所述下一级文件归属的所述常用词汇,其中,任一所述常用词汇的权重与其在所述下一级文件归属的历史词汇中的出现频率成正比。5.根据权利要求4所述的方法,其特征在于,基于所述历史词汇,提取所述下一级文件归属的所述常用词汇的步骤包括:确定任一所述历史词汇的出现频率;去除所述历史词汇中仅出现一次的词汇;以及提取所述历史词汇中出现频率相对较高的S个词汇作为所述下一级文件归属的常用词汇,其中S为大于等于1的任意正整数。6.根据权利要求5所述的方法,其特征在于,所述S个词汇满足:S=Y+3
×
M,其中,Y为所述历史词汇的出现频率的平均值;以及M为所述历史词汇的出现频率的标准方差值。7.根据权利要求4所述的方法,其特征在于,获取所述样本文件的文本数据的步骤包括:获取所述样本文件;以及对所述样本文件进行分词处理以获取所述样本文件的文本数据。8.根据权利要求1所述的方法,其特征在于,当检测到文件的操作动作后,所述方法还包括确定所述文件的文件归属的步骤,确定所述文件的文件归属包括:
获取所述文件;对所述文件进行分词处理以获取所述文件的文本数据;以及基于所述文件的文本数据与所述文件归属的所述排他敏感词确定所述文件的文件归属。9.根据权利要求1所述的方法,其中所述文件归属和所述安全层级分别记载于文件归属配置表单和安全层级配置表单中,其特征在于,所述方法还包括:实时更新所述文件归属配置表单和所述安全层级配置表单。10.一种文件安全管理装置,其特征在于,所述装置包括:确定模块,所述确定模块被配置为当检测到对文件的操作动作时,基于所述文件归属的排他敏感词确定所述文...

【专利技术属性】
技术研发人员:陈予郎
申请(专利权)人:长江存储科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1