【技术实现步骤摘要】
一种文件分类方法和装置
本专利技术涉及计算机
,尤其涉及一种文件分类方法和装置。
技术介绍
近年来,计算机安全行业逐渐从早起的网络安全向数据安全发展,数据安全的一个方向是数据分类,将数据分为具有不同安全级别的类,并针对不同级别采用不同安全策略来管理数据。在此基础上产生了较多数据分类工具,如非用户驱动类的机器学习(分类算法、聚类算法)、用户驱动类的文件标签/标记等。本方案主要涉及用户驱动类的文件标签/标记,根据文件上已有的标签对文件进行管理,目前对文件操作标签的方式包括新增、删除、更新标签。在实现本专利技术的过程中,专利技术人发现现有技术至少存在如下问题:1、使用范围受限,只能针对特定类型的文件(如doc、docx、pdf、jpg、mp4)进行标签管理操作;2、依赖人工手动打标或删除标记,且错误率较高。如用户使用标签01标记a文件为财务文件,属于一般敏感文件,但对于与a文件较为相似的b文件,不会显示b文件上已打了标签01,为实现给b文件打标签01,还需要再手动操作一次,操作繁琐。< ...
【技术保护点】
1.一种文件分类方法,其特征在于,包括:/n响应于对目标文件的查询标签操作,获取所述目标文件的文件指纹,确定本地指纹库中与所述文件指纹的相似度超出预定相似度阈值的相似文件指纹;/n获取与所述相似文件指纹对应的元信息,根据所述元信息中的标签标识进行标签确定,得到第一标签集;/n传输所述文件指纹至服务端进行标签查询,以接收服务端返回的第二标签集;/n对所述第一标签集和所述第二标签集取并集,得到所述目标文件的已打标签集,根据所述已打标签集中的标签确定所述目标文件所属分类。/n
【技术特征摘要】
1.一种文件分类方法,其特征在于,包括:
响应于对目标文件的查询标签操作,获取所述目标文件的文件指纹,确定本地指纹库中与所述文件指纹的相似度超出预定相似度阈值的相似文件指纹;
获取与所述相似文件指纹对应的元信息,根据所述元信息中的标签标识进行标签确定,得到第一标签集;
传输所述文件指纹至服务端进行标签查询,以接收服务端返回的第二标签集;
对所述第一标签集和所述第二标签集取并集,得到所述目标文件的已打标签集,根据所述已打标签集中的标签确定所述目标文件所属分类。
2.根据权利要求1所述的方法,其特征在于,所述本地指纹库包括第一指纹库和第二指纹库;
所述获取所述目标文件的文件指纹,包括:
根据所述目标文件中的文件内容,生成文件指纹;其中,所述文件指纹包括第一指纹和第二指纹,所述第一指纹通过利用信息摘要算法处理所述文件内容得到;
所述确定本地指纹库中与所述文件指纹的相似度超出预定相似度阈值的相似文件指纹,包括:
计算所述第一指纹和所述第一指纹库中指纹之间的相似度,确定相似度超出第一预定相似度阈值的第一相似指纹;以及
计算所述第二指纹和所述第二指纹库中指纹之间的相似度,确定相似度超出第二预定相似度阈值的第二相似指纹;
所述获取与所述相似文件指纹对应的元信息,包括:获取与所述第一相似指纹对应的第一元信息以及与所述第二相似指纹对应的第二元信息。
3.根据权利要求2所述的方法,其特征在于,第二指纹包括子指纹,所述子指纹利用信息摘要算法处理所述文件内容的分词生成;
所述计算所述第二指纹和所述第二指纹库中指纹之间的相似度,包括:
计算所述第二指纹中各子指纹与所述第二指纹库中一指纹的各子指纹之间的相似度,累加相似度之和,得到所述第二指纹和所述一指纹之间的相似度。
4.根据权利要求2或3所述的方法,其特征在于,所述获取与所述第一相似指纹对应的第一元信息以及与所述第二相似指纹对应的第二元信息,还包括:
确定所述目标文件的文件量,获取与所述第一相似指纹和所述文件量对应的第一元信息;以及
确定所述目标文件的文件后缀和文件类型,获取与所述第二相似指纹、所述文件后缀和所述文件类型对应的第二元信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取客户端的全限定域名,结合所述目标文件的文件路径和文件类型,从本地文件信息库中进行元信息查询,以根据所查询元信息中的标签标识进行标签确定,得到第三标签集;
所述对所述第一标签集和所述第二标签集取并集,包括:
对所述第一标签集、所述第二标签集和所述第三标签集取并集。
6.根据权利要求1或5所述的方法,其特征在于,还包括:
发送鉴权请求至服务端,以通过服务端对所述鉴权请求中的用户名进行鉴权处理,得到所述用户名具有操作权限的第四标签集;
所述得到所述目标文件的已打标签集,还包括:
对...
【专利技术属性】
技术研发人员:陈少涵,胡立中,李仕毅,
申请(专利权)人:北京天空卫士网络安全技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。