【技术实现步骤摘要】
敏感文件识别方法、装置、电子设备及存储介质
[0001]本申请涉及信息安全
,尤其涉及一种敏感文件识别方法、装置、电子设备及存储介质。
技术介绍
[0002]随着数字化信息技术的发展,数据的安全性逐渐受到人们的重视。对于包含隐私信息的敏感数据,需要及时地被识别出来并进行有效地保护。
[0003]目前,识别敏感数据主要采用的方法是:获取待识别的文件(例如:图片),采用文字识别(Optical Character Recognition,OCR)技术提取出文件中的字符串,将提取出的字符串与敏感信息特征匹配库中的敏感信息特征串进行匹配,如果匹配成功,则确定相应的字符串为敏感数据,如果没有匹配成功,则确定相应的字符串为非敏感数据。
[0004]从目前识别敏感数据所采用的方法看来,其仅能够识别数据本身是否敏感,对于文件是否敏感,上述方法无法准确地进行识别。这是因为:若采用上述方法识别文件是否敏感,在确定文件中相应的字符串为敏感信息后,如果该字符串仅仅在文件中作为一个示例(例如:身份证号码的举例,实际上并非某个人真 ...
【技术保护点】
【技术特征摘要】
1.一种敏感文件识别方法,其特征在于,所述方法包括:获取待识别的目标文件中的字符串;判断所述字符串中是否包含有敏感信息特征匹配库中的特征串;若是,则判断所述字符串中是否包含有敏感文件模板中的内容,所述内容与敏感信息具有关联关系;如果是,则确定所述目标文件为敏感文件;如果不是,则确定所述目标文件为非敏感文件;若否,则确定所述目标文件为非敏感文件。2.根据权利要求1所述的方法,其特征在于,所述判断所述字符串中是否包含有敏感文件模板中的内容,包括:判断所述字符串中是否包含有敏感文件模板中的题目;和/或,判断所述字符串中是否包含有敏感文件模板中的提示项。3.根据权利要求2所述的方法,其特征在于,所述如果是,则确定所述目标文件为敏感文件,包括:如果是,则获取所述目标文件的大小以及所述字符串与所述敏感文件模板中各内容成功匹配的数量;确定所述数量与所述大小的比值;若所述比值大于或等于预设比值,则确定所述目标文件为第一级敏感文件;若所述比值小于预设比值,则确定所述目标文件为第二级敏感文件,其中,所述第二级的敏感程度低于所述第一级的敏感程度。4.根据权利要求2所述的方法,其特征在于,所述如果是,则确定所述目标文件为敏感文件,包括:如果是,则获取所述字符串中与所述敏感文件模板的内容匹配的各子字符串之间的位置关系;判断所述位置关系是否为依次排列,以及,判断所述各子字符串的内容是否完全相同或者完全不同;若判断结果至少一个为是,则确定所述目标文件为第一级敏感文件;若判断结果均为否,则确定所述目标文件为第二级敏感文件,其中,所述第二级的敏感程度低于所述第一级的敏感程度。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述目标文件为文件集合中的一个文件,所述目标文件集合中还包括至少一个其它文件;在确定所述目标文件为敏感文件之后,所述方法还包括:确定所述目标文件集合为敏感文件集合。6.根据权利要求5所述的方法,其特征在于,所述确定所述目标文件集合为敏感文件集合,包括:获取...
【专利技术属性】
技术研发人员:陈华平,吴佳仪,王子恒,杨佳,
申请(专利权)人:奇安信网神信息技术北京股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。