一种敏感文件检测方法、介质及设备技术

技术编号:18860885 阅读:110 留言:0更新日期:2018-09-05 14:23
本发明专利技术的提供一种敏感文件检测方法、介质及设备。所述方法,通过采用simhash算法,根据比对哈希值和待检测哈希值,判断待检测文件是否为敏感文件,相较于传统的关键字检测方法、MD5/SHA1匹配检测方法,本发明专利技术不仅能够提高检测敏感文件的速度,而且,在待检测文件有较小修改的情况下,并不会影响检测结果;同时,本发明专利技术采用simhash算法,是根据哈希值来判断待检测文件,并不需要读取文件,资源占用较小。

A sensitive document detection method, medium and equipment

The invention provides a sensitive document detection method, medium and equipment. Compared with the traditional keyword detection method and the MD5/SHA1 matching detection method, the method can not only improve the speed of detecting sensitive files, but also have a smaller number of files to be detected. At the same time, the simhash algorithm is used to judge the file to be detected according to the hash value, and does not need to read the file, so the resource occupation is small.

【技术实现步骤摘要】
一种敏感文件检测方法、介质及设备
本专利技术涉及数据安全
,具体涉及一种敏感文件检测方法、介质及设备。
技术介绍
随着企业信息化的发展,越来越多的信息转向数据化,敏感信息的识别也从人工转向自动化。现有技术中,通常采用敏感关键字检测方法或者MD5/SHA1匹配检测方法,来检测敏感文件,这两种方法检测耗时长,并且,当篡改关键字后容易导致检测失败,使用效果较差。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种敏感文件检测方法,不仅能够提高检测敏感文件的速度,而且,在待检测文件有较小修改的情况下,并不会影响检测结果。第一方面,本专利技术提供了一种敏感文件检测方法,包括:获取客户端上传的待检测文件,并计算所述待检测文件的待检测哈希值;从预设的敏感文件库中获取比对哈希值;所述比对哈希值是指敏感文件对应的哈希值;基于simhash算法,根据所述比对哈希值和所述待检测哈希值,判断所述待检测文件是否为敏感文件。可选的,计算所述待检测文件的待检测哈希值,包括:计算所述待检测文件的部分内容的待检测哈希值。可选的,不同的所述客户端对应不同的所述敏感文件库;所述从预设的敏感文件库中获取比对哈希值,包括:根据所述客户端的标识,从相应的预设敏感文件库中获取比对哈希值。可选的,所述敏感文件库中存储有至少一个敏感文件的哈希值。可选的,所述基于simhash算法,根据所述比对哈希值和所述待检测哈希值,判断所述待检测文件是否为敏感文件,包括:将所述待检测哈希值与至少一个所述比对哈希值一一进行对比;若有一个所述比对哈希值与所述待检测哈希值相同,则判断所述待检测哈希值对应的待检测文件为敏感文件;若所述待检测哈希值与至少一个所述比对哈希值都不相同,则计算所述待检测哈希值与所述比对哈希值对应的汉明距离;判断所述汉明距离是否大于距离阈值;若大于,则判断所述待检测文件不是敏感文件;若不大于,则判断所述待检测文件为敏感文件。可选的,还包括:若判断结果为所述待检测文件为敏感文件,则根据相应的比对哈希值,重新排列所述敏感文件库中比对哈希值的排列顺序。可选的,还包括:将所述待检测文件为敏感文件的判断结果反馈至所述客户端。可选的,还包括:将所述待检测文件为敏感文件的判断结果和所述待检测文件发送至审批端;接收所述审批端发送的控制指令;根据所述控制指令,放行或阻止所述待检测文件。第二方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述敏感文件检测方法。第三方面,本专利技术提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述敏感文件检测方法。本专利技术的提供一种敏感文件检测方法,通过采用simhash算法,根据比对哈希值和待检测哈希值,判断待检测文件是否为敏感文件,相较于传统的关键字检测方法、MD5/SHA1匹配检测方法,本专利技术不仅能够提高检测敏感文件的速度,而且,在待检测文件有较小修改的情况下,并不会影响检测结果;同时,本专利技术采用simhash算法,是根据哈希值来判断待检测文件,并不需要读取文件,资源占用较小。本专利技术提供的一种计算机可读存储介质和一种计算机设备,与上述一种敏感文件检测方法出于相同的专利技术构思,具有相同的有益效果。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为本专利技术提供的一种敏感文件检测方法的流程图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。本专利技术提供了一种敏感文件检测方法、介质及设备。下面结合附图对本专利技术的实施例进行说明。请参考图1,图1为本专利技术具体实施例提供的一种敏感文件检测方法的流程图,本实施例提供的一种敏感文件检测方法,包括:步骤S101:获取客户端上传的待检测文件,并计算所述待检测文件的待检测哈希值。步骤S102:从预设的敏感文件库中获取比对哈希值;所述比对哈希值是指敏感文件对应的哈希值。步骤S103:基于simhash算法,根据所述比对哈希值和所述待检测哈希值,判断所述待检测文件是否为敏感文件。其中,待检测文件是指客户端上传的需要检测是否为敏感文件的目标文件。敏感文件库是指存储有指定敏感文件的哈希值的文件库。敏感文件库中可以存储至少一个敏感文件的哈希值。敏感文件库中存储的敏感文件的哈希值为比对哈希值。在实施本专利技术之前,需要确定比较的敏感文件,并计算敏感文件的哈希值,再将该哈希值存储至敏感文件库。通过采用simhash算法,根据比对哈希值和待检测哈希值,判断待检测文件是否为敏感文件,相较于传统的关键字检测方法、MD5/SHA1匹配检测方法,本专利技术不仅能够提高检测敏感文件的速度,而且,在待检测文件有较小修改的情况下,并不会影响检测结果;同时,本专利技术采用simhash算法,是根据哈希值来判断待检测文件,并不需要读取文件,资源占用较小。本专利技术适用于任何检测敏感文件的场景,本专利技术的执行主体为服务器。在本专利技术提供的一个具体实施例中,计算所述待检测文件的待检测哈希值,包括:计算所述待检测文件的部分内容的待检测哈希值。在计算待检测文件的待检测哈希值时,可以随机挑选文件的一部分,进行simhash算法检测。例如,文件包括有100信息,挑选其中30或者20页来进行计算。在判断待检测文件是否为敏感文件时,也可以只利用计算的该部分内容的待检测哈希值与比对哈希值进行对比,判断待检测文件是否为敏感文件。这样,能够减小计算量,提高计算待检测哈希值的速度,提高判断待检测文件是否为敏感文件的速度。在本专利技术提供的一个具体实施例中,不同的所述客户端对应不同的所述敏感文件库;所述从预设的敏感文件库中获取比对哈希值,包括:根据所述客户端的标识,从相应的预设敏感文件库中获取比对哈希值。在本专利技术中,不同的客户端会对应有不同的敏感文件库。例如,老板的敏感文件库中的对比哈希值就比较少,一般员工的敏感文件库中的对比哈希值比较多。这样,当检测老板上传的待检测文件时,可以提高检测速度,减小老板上传的待检测文件的敏感量。当检测员工上传的待检测文件时,可以更多地检测待检测文件,避免敏感信息的传输。当不同客户端对应不同敏感文件库时,从预设的敏感文件库中获取比对哈希值时,可以根据客户端的标识进行识别,从相对应的敏感文件库中获取正确的比对哈希值。例如,老板客户端上传的待检测文件具有老板标识,根据该标识,从老板对应的敏感文件库中调取相应的比对哈希值。在本专利技术提供的一个具体实施例中,所述敏感文件库中存储有至少一个敏感文件的哈希值。敏感文件库中可以存储有多个敏感文件的哈希值,也就是可以存储有多个比对哈希值。这都在本专利技术的保护范围内。在本专利技术提供的一个具体实施例中,所述基于simhash算法,根据所述比对哈希值和所述待检测哈希值,判断所述待检测文件是否为敏感文件,包括:将所述待检测哈希值本文档来自技高网...

【技术保护点】
1.一种敏感文件检测方法,其特征在于,包括:获取客户端上传的待检测文件,并计算所述待检测文件的待检测哈希值;从预设的敏感文件库中获取比对哈希值;所述比对哈希值是指敏感文件对应的哈希值;基于simhash算法,根据所述比对哈希值和所述待检测哈希值,判断所述待检测文件是否为敏感文件。

【技术特征摘要】
1.一种敏感文件检测方法,其特征在于,包括:获取客户端上传的待检测文件,并计算所述待检测文件的待检测哈希值;从预设的敏感文件库中获取比对哈希值;所述比对哈希值是指敏感文件对应的哈希值;基于simhash算法,根据所述比对哈希值和所述待检测哈希值,判断所述待检测文件是否为敏感文件。2.根据权利要求1所述的方法,其特征在于,计算所述待检测文件的待检测哈希值,包括:计算所述待检测文件的部分内容的待检测哈希值。3.根据权利要求1所述的方法,其特征在于,不同的所述客户端对应不同的所述敏感文件库;所述从预设的敏感文件库中获取比对哈希值,包括:根据所述客户端的标识,从相应的预设敏感文件库中获取比对哈希值。4.根据权利要求1所述的方法,其特征在于,所述敏感文件库中存储有至少一个敏感文件的哈希值。5.根据权利要求4所述的方法,其特征在于,所述基于simhash算法,根据所述比对哈希值和所述待检测哈希值,判断所述待检测文件是否为敏感文件,包括:将所述待检测哈希值与至少一个所述比对哈希值一一进行对比;若有一个所述比对哈希值与所述待检测哈希值相同,则判断所述待检测哈希值对应的待检...

【专利技术属性】
技术研发人员:曾琛孟昭宇于健
申请(专利权)人:深圳市联软科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1