一种确定文件类型并对文件类型进行识别的方法及装置制造方法及图纸

技术编号:32216702 阅读:11 留言:0更新日期:2022-02-09 17:22
本发明专利技术提供一种确定文件类型并对文件类型进行识别的方法及装置,所述方法包括:获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定一组文件的共有部分;所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;文件解析系统接收所述控制台系统下发的文件签名列表;所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;若匹配,对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式。本方法支持自定义文件类型,提取文件签名信息;能够识别文件内容,使用已提取的文件签名信息,识别文件类型。文件类型。文件类型。

【技术实现步骤摘要】
一种确定文件类型并对文件类型进行识别的方法及装置


[0001]本专利技术涉及数据安全领域,尤其涉及一种确定文件类型并对文件类型进行识别的方法及装置。

技术介绍

[0002]在数据防泄漏系统中,特别是邮件系统,通常预先设定对某些特定类型的文件进行拦截的手段,但对于企业内部常常存在若干自定义的文件,这些文件的类型不属于常规的文件类型,在数据防泄漏系统中难以预先设定文件类型,在对文件进行识别时,也难以识别文件的类型,因此,造成难于有效拦截文件,造成数据泄漏。

技术实现思路

[0003]为解决上述技术问题,本专利技术提出了一种确定文件类型并对文件类型进行识别的方法及装置,所述方法及装置,用以解决现有技术中当前已知的文件类型识别工具或者方案,如文件扩展名、Tika识别、MIME Type等,不能标识自定义文件、难于按需求识别某些专有文件、自定义文件难于确定文件类型、自定义文件难于进行有效拦截的技术问题。
[0004]根据本专利技术的第一方面,提供一种确定文件类型并对文件类型进行识别的方法,所述方法包括以下步骤:
[0005]步骤S101:获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件类型的自定义文件和/或企业内部专有文件是能够根据共同的文件头信息来确定是同一类文件的企业内部文件;
[0006]步骤S102:控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;所述企业内部约定类型是基于所述企业的命名规范确定的,所述文件签名用于标识一组相同类型的文件的信息;
[0007]步骤S103:所述控制台系统保存所述文件签名,并将保存的文件签名下发到文件解析系统;
[0008]步骤S104:所述文件解析系统接收所述控制台系统下发的文件签名列表;所述文件签名列表包括所述控制台系统保存的全部文件签名;
[0009]步骤S105:所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;若匹配,进入步骤S106;若不匹配,方法结束;
[0010]步骤S106:对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式。
[0011]根据本专利技术第二方面,提供一种确定文件类型并对文件类型进行识别的装置,所述装置包括:
[0012]共有部分查找模块:配置为获取一组未确定文件类型的自定义文件和/或企业内
部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件类型的自定义文件和/或企业内部专有文件是能够根据共同的文件头信息来确定是同一类文件的企业内部文件;
[0013]文件签名模块:配置为控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;所述企业内部约定类型是基于所述企业的命名规范确定的,所述文件签名用于标识一组相同类型的文件的信息;
[0014]下发文件签名模块:配置为所述控制台系统保存所述文件签名,并将保存的文件签名下发到文件解析系统;
[0015]文件签名接收模块:配置为所述文件解析系统接收所述控制台系统下发的文件签名列表;所述文件签名列表包括所述控制台系统保存的全部文件签名;
[0016]匹配模块:配置为所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;
[0017]文件管控模块:配置为对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式。
[0018]根据本专利技术第三方面,提供一种确定文件类型并对文件类型进行识别的系统,包括:
[0019]处理器,用于执行多条指令;
[0020]存储器,用于存储多条指令;
[0021]其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的确定文件类型并对文件类型进行识别的方法。
[0022]根据本专利技术第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的确定文件类型并对文件类型进行识别的方法。
[0023]根据本专利技术的上述方案,在邮件数据防漏泄系统中支持识别自定义文件类型,并配置相关策略对自定义文件类型进行处理,支持导入需要提取类型的一组文件,通过读取文件内容,从文件内容中提取从头开始到内容的某一个位置,直至找到相同的部分,将这部分内容编码保存,作为该类文件的签名。待用户在邮件发送附件时,使用已提取的文件签名,与邮件附件进行比对,如果发现附件内容与文件签名相匹配,则对附件文件进行标识,通过预先设置的策略,对已标识的文件进行相应的处理,如放行、保存、拦截等。该方案应用于需要识别自定义文件类型的DLP产品中。本方案支持自定义文件类型,提取文件签名信息;能够识别文件内容,使用已提取的文件签名信息,识别文件类型。
[0024]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。
附图说明
[0025]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术一个实施方式的确定文件类型并对文件类型进行识别的方法流程图;
[0027]图2为本专利技术一个实施方式的确定文件类型并对文件类型进行识别的总体方案示意图;
[0028]图3(a)

图3(g)分别为本专利技术提取文件签名、下发文件签名、获取文件签名、获取待解析的文件、读取文件内容、匹配文件类型、保存识别结果的示意图;
[0029]图4为本专利技术一个实施方式的系统架构图;
[0030]图5为本专利技术一个实施方式的确定文件类型并对文件类型进行识别的装置结构框图。
具体实施方式
[0031]定义:
[0032]文件类型提取:从一组相同类型的文件的内容中,提取共同的部分标识该类文件;
[0033]文件签名:用于标识一组相同类型的文件的信息;
[0034]文件类型识别:根据已提取的文件签名,识别相同类型的文件,并标识。
[0035]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]首先结合图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定文件类型并对文件类型进行识别的方法,其特征在于,所述方法包括以下步骤:步骤S101:获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件类型的自定义文件和/或企业内部专有文件是能够根据共同的文件头信息来确定是同一类文件的企业内部文件;步骤S102:控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;所述企业内部约定类型是基于所述企业的命名规范确定的,所述文件签名用于标识一组相同类型的文件的信息;步骤S103:所述控制台系统保存所述文件签名,并将保存的文件签名下发到文件解析系统;步骤S104:所述文件解析系统接收所述控制台系统下发的文件签名列表;所述文件签名列表包括所述控制台系统保存的全部文件签名;步骤S105:所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;若匹配,进入步骤S106;若不匹配,方法结束;步骤S106:对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式。2.如权利要求1所述的确定文件类型并对文件类型进行识别的方法,其特征在于,所述获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分,包括:获取所述未确定文件类型的自定义文件和/或企业内部专有文件的头文件,从头文件中查找该组文件的共同部分,若该组文件中没有共同部分,方法结束;若存在共同部分,则获取所述共同部分。3.如权利要求2所述的确定文件类型并对文件类型进行识别的方法,其特征在于,所述一组未确定文件类型的自定义文件和/或企业内部专有文件,一组的文件数量至少为三个。4.一种确定文件类型并对文件类型进行识别的装置,其特征在于,所述装置包括:共有部分查找模块:配置为获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件...

【专利技术属性】
技术研发人员:李远明喻波王志海韩振国安鹏
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1