一种非结构化数据的分级分类方法及装置制造方法及图纸

技术编号:38722646 阅读:16 留言:0更新日期:2023-09-08 23:16
本发明专利技术公开了一种非结构化数据的分级分类方法及装置,该方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;基于关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合;根据目标关键词集合确定关联词集合;计算目标文件对应的语义核心词集合与标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与标准文件类型的分类相似度;从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的标准文件类型作为目标文件的目标文件类型;根据目标文件类型和目标关键词集合,确定目标文件的目标安全保密等级。可见,实施本发明专利技术能够准确高效地对非结构化数据进行分级分类。化数据进行分级分类。化数据进行分级分类。

【技术实现步骤摘要】
一种非结构化数据的分级分类方法及装置


[0001]本专利技术涉及数据治理
,尤其涉及一种非结构化数据的分级分类方法及装置。

技术介绍

[0002]非结构化数据是没有固定格式或固定规则的数据,非结构化数据包括文档、HTML、图像、音频、视频等类型的数据。
[0003]在实际应用中,需要对非结构化数据的内容进行识别解析,以管理非结构化数据。然而,识别解析非结构化数据内容通常依赖人工处理,且人工对非结构化数据进行分级分类的时间成本较高,导致非结构化数据的管理效率低下。因此,提出一种能够准确高效地对非结构化数据进行分级分类,以提高非结构化数据的管理效率的技术方案显得尤为重要。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种非结构化数据的分级分类方法及装置,能够提高非结构化数据的分级分类效率和准确性,有利于提高非结构化数据的管理效率和管理准确性。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种非结构化数据的分级分类方法,所述方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;
根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级。
[0006]本专利技术第二方面公开了一种非结构化数据的分级分类装置,所述装置包括:筛选模块,用于基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;关键词抽取模块,用于基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;确定模块,用于根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;计算模块,用于对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;所述筛选模块,还用于从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;所述确定模块,还用于根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级。
[0007]本专利技术第三方面公开了另一种非结构化数据的分级分类装置,所述装置包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,执行本专利技术第一方面公开的非结构化数据的分级分类方法。
[0008]本专利技术第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本专利技术第一方面公开的非结构化数据的分级分类方法。
[0009]与现有技术相比,本专利技术实施例具有以下有益效果:本专利技术实施例中,基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,全盘扫描方式用于表示对所有非结构化数据文件的文件头进行扫描,每个非结构化数据文件的文件头包括该非结构化数据文件的文件格式;目标文件格式为不属于预设白名单的文件格式,预设白名单包括至少一种无需进行分类的文件格式;基于预先确定的关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合,目标关键词集合包括至少一个目标关键词,关键词抽取算法包括文
本预处理和关键词抽取,文本预处理至少包括分词和去停用词;根据目标文件对应的目标关键词集合,确定目标文件对应的关联词集合,关联词集合包括至少一个关联词,每个关联词与目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;对于每种预先确定的标准文件类型,计算目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与该标准文件类型的分类相似度,目标文件对应的语义核心词集合包括目标文件对应的目标关键词集合和目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为目标文件的目标文件类型;根据目标文件的目标文件类型和目标文件对应的目标关键词集合,确定目标文件的目标安全保密等级。可见,实施本专利技术能够从所有非结构化数据文件中扫描得到目标文件格式的目标文件,并从目标文件中抽取出目标关键词集合,根据目标关键词集合确定出关联词集合,以及根据目标关键词集合和关联词集合与标准文件类型对应的标准关键词集合之间的相似度,确定出目标文件与每个标准文件类型的分类相似度,根据分类相似度筛选出目标文件的目标文件类型,再根据目标文件类型和目标关键词集合确定目标文件的目标安全保密等级,实现了非结构化数据的智能化分级分类,能够提高对非结构化数据的文本内容的分析效率和分析准确性,从而提高非结构化数据的分级分类效率和分级分类准确性,进而提高非结构化数据的管理效率和管理准确性,有利于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非结构化数据的分级分类方法,其特征在于,所述方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级。2.根据权利要求1所述的非结构化数据的分级分类方法,其特征在于,所述根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级,包括:获取所述目标文件的目标文件类型对应的第一安全保密等级;获取所述目标文件类型对应的敏感词集合,所述敏感词集合包括多个敏感词;比对所述目标文件对应的目标关键词集合和所述敏感词集合,得到所述目标文件对应的敏感比对结果,所述敏感比对结果用于表示所述目标关键词集合与所述敏感词集合之间的重合情况;根据所述目标文件对应的敏感比对结果,确定所述目标文件对应的信息敏感等级;根据所述目标文件对应的信息敏感等级,从所有安全保密等级中筛选出与所述信息敏感等级相匹配的安全保密等级作为所述目标关键词集合对应的第二安全保密等级;根据所述第一安全保密等级和所述第二安全保密等级,确定所述目标文件的目标安全保密等级。3.根据所述权利要求2所述的非结构化数据的分级分类方法,其特征在于,所述根据所述目标文件对应的敏感比对结果,确定所述目标文件对应的信息敏感等级,包括:当所述敏感比对结果用于表示在所述目标关键词集合中存在与所述敏感词集合重合的目标关键词时,从所述目标关键词集合中筛选出与所述敏感词集合重合的目标关键词作为敏感关键词;
统计所述敏感关键词的数量以及每个所述敏感关键词在所述目标文件中的出现频次;根据所述敏感关键词的数量和所有所述敏感关键词对应的出现频次,确定所述目标文件对应的信息敏感等级;当所述敏感比对结果用于表示在所述目标关键词集合中不存在与所述敏感词集合重合的目标关键词时,计算所述目标关键词集合与所述敏感词集合之间的敏感相似度;根据所述敏感相似度,确定所述目标文件对应的信息敏感等级。4.根据权利要求2或3所述的非结构化数据的分级分类方法,其特征在于,所述方法还包括:判断所述目标文件对应的信息敏感等级是否高于预设信息敏感等级;当判断出所述目标文件对应的信息敏感等级高于所述预设信息敏感等级时,确定所述目标文件所记载文本中的敏感文本;基于预先确定的加密算法和所述加密算法对应的目标密钥对,对所述目标文件所记载文本中的敏感文本进行加密处理,得到所述敏感文本对应的加密文本,所述目标密钥对包括目标私钥和目标公钥;当检测到所述目标文件对应的文件读取请求时,判断所述文件读取请求中所包含的公钥是否为所述目标公钥;当判断出所述文件读取请求中所包含的公钥为所述目标公钥时,读取所述目标文件所记载文本;当判断出所述文件读取请求中所包含的公钥不为所述目标公钥时,读取所述敏感文本对应的加密文本以及所述目标文件所记载文本中除所述敏感文本之外的其余文本。5.根据权利要求1所述的非结构化数据的分级分类方法,其特征在于,所述对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该...

【专利技术属性】
技术研发人员:李烨张正初杨定邱伟煌王宇
申请(专利权)人:广东南方电信规划咨询设计院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1