【技术实现步骤摘要】
一种非结构化数据的分级分类方法及装置
[0001]本专利技术涉及数据治理
,尤其涉及一种非结构化数据的分级分类方法及装置。
技术介绍
[0002]非结构化数据是没有固定格式或固定规则的数据,非结构化数据包括文档、HTML、图像、音频、视频等类型的数据。
[0003]在实际应用中,需要对非结构化数据的内容进行识别解析,以管理非结构化数据。然而,识别解析非结构化数据内容通常依赖人工处理,且人工对非结构化数据进行分级分类的时间成本较高,导致非结构化数据的管理效率低下。因此,提出一种能够准确高效地对非结构化数据进行分级分类,以提高非结构化数据的管理效率的技术方案显得尤为重要。
技术实现思路
[0004]本专利技术所要解决的技术问题在于,提供一种非结构化数据的分级分类方法及装置,能够提高非结构化数据的分级分类效率和准确性,有利于提高非结构化数据的管理效率和管理准确性。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种非结构化数据的分级分类方法,所述方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键 ...
【技术保护点】
【技术特征摘要】
1.一种非结构化数据的分级分类方法,其特征在于,所述方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级。2.根据权利要求1所述的非结构化数据的分级分类方法,其特征在于,所述根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级,包括:获取所述目标文件的目标文件类型对应的第一安全保密等级;获取所述目标文件类型对应的敏感词集合,所述敏感词集合包括多个敏感词;比对所述目标文件对应的目标关键词集合和所述敏感词集合,得到所述目标文件对应的敏感比对结果,所述敏感比对结果用于表示所述目标关键词集合与所述敏感词集合之间的重合情况;根据所述目标文件对应的敏感比对结果,确定所述目标文件对应的信息敏感等级;根据所述目标文件对应的信息敏感等级,从所有安全保密等级中筛选出与所述信息敏感等级相匹配的安全保密等级作为所述目标关键词集合对应的第二安全保密等级;根据所述第一安全保密等级和所述第二安全保密等级,确定所述目标文件的目标安全保密等级。3.根据所述权利要求2所述的非结构化数据的分级分类方法,其特征在于,所述根据所述目标文件对应的敏感比对结果,确定所述目标文件对应的信息敏感等级,包括:当所述敏感比对结果用于表示在所述目标关键词集合中存在与所述敏感词集合重合的目标关键词时,从所述目标关键词集合中筛选出与所述敏感词集合重合的目标关键词作为敏感关键词;
统计所述敏感关键词的数量以及每个所述敏感关键词在所述目标文件中的出现频次;根据所述敏感关键词的数量和所有所述敏感关键词对应的出现频次,确定所述目标文件对应的信息敏感等级;当所述敏感比对结果用于表示在所述目标关键词集合中不存在与所述敏感词集合重合的目标关键词时,计算所述目标关键词集合与所述敏感词集合之间的敏感相似度;根据所述敏感相似度,确定所述目标文件对应的信息敏感等级。4.根据权利要求2或3所述的非结构化数据的分级分类方法,其特征在于,所述方法还包括:判断所述目标文件对应的信息敏感等级是否高于预设信息敏感等级;当判断出所述目标文件对应的信息敏感等级高于所述预设信息敏感等级时,确定所述目标文件所记载文本中的敏感文本;基于预先确定的加密算法和所述加密算法对应的目标密钥对,对所述目标文件所记载文本中的敏感文本进行加密处理,得到所述敏感文本对应的加密文本,所述目标密钥对包括目标私钥和目标公钥;当检测到所述目标文件对应的文件读取请求时,判断所述文件读取请求中所包含的公钥是否为所述目标公钥;当判断出所述文件读取请求中所包含的公钥为所述目标公钥时,读取所述目标文件所记载文本;当判断出所述文件读取请求中所包含的公钥不为所述目标公钥时,读取所述敏感文本对应的加密文本以及所述目标文件所记载文本中除所述敏感文本之外的其余文本。5.根据权利要求1所述的非结构化数据的分级分类方法,其特征在于,所述对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该...
【专利技术属性】
技术研发人员:李烨,张正初,杨定,邱伟煌,王宇,
申请(专利权)人:广东南方电信规划咨询设计院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。