System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于本体的数据分类分级打标方法及装置制造方法及图纸_技高网

基于本体的数据分类分级打标方法及装置制造方法及图纸

技术编号:40509056 阅读:3 留言:0更新日期:2024-03-01 13:24
本发明专利技术提供了一种基于本体的数据分类分级打标方法及装置,可用于信息安全、人工智能领域、金融领域或其他领域。方法包括:从包括多源异构数据的应用中获取待打标数据,将待打标数据划分为结构化数据与非结构化数据;利用统计算法与语义算法,对非结构化数据进行关键词抽取处理,利用分类算法与图结构数据本体,确定文本信息类型;对结构化数据进行正则匹配处理,利用聚类算法与图结构数据本体,确定数据项类型;根据图结构数据本体中数据类别与安全等级的对应关系,利用文本信息类型及数据项类型得到安全级别。本发明专利技术实现数据分类分级的自动打标,弥补了只支持单一类型数据应用自动打标能力不足的问题,提升数据分类分级打标效率,降低人力成本。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤指一种基于本体的数据分类分级打标方法及装置


技术介绍

1、目前,银行业包含着大量的结构化和非结构化敏感数据如客户交易信息、客户个人信息、隐私信息等,某一些应用承载的数据既包括结构化数据如在数据库存储的数据,又包括非机构化数据如word、text等以附件形式存在的数据,针对这些应用进行统一的数据分类分级自动打标成为业界的难点,现有产品或方法只能支持单一类型数据应用自动打标能力的不足,需要浪费大量人力资源,存在数据打标效率低、准确性差等问题。因此,需要一种智能化的数据打标方法,提升并实现对多源异构数据分类分级的自动打标能力。


技术实现思路

1、针对现有技术中存在的问题,本专利技术实施例的主要目的在于提供一种基于本体的数据分类分级打标方法及装置,提升数据分类分级打标效率,降低人力资源的投入。

2、为了实现上述目的,本专利技术实施例提供一种基于本体的数据分类分级打标方法,方法包括:

3、从包括多源异构数据的应用中获取待打标数据,并将待打标数据划分为结构化数据与非结构化数据;

4、利用统计算法与语义算法,对非结构化数据进行关键词抽取处理,得到待打标关键词,并利用分类算法与预先建立的图结构数据本体,确定待打标关键词对应的文本信息类型;

5、对结构化数据进行正则匹配处理,得到待打标数据项,并利用聚类算法与图结构数据本体,确定待打标数据项对应的数据项类型;

6、根据图结构数据本体中数据类别与安全等级的对应关系,分别利用待打标关键词对应的文本信息类型与待打标数据项对应的数据项类型,得到结构化数据对应的安全级别及非结构化数据对应的安全级别,以完成数据分类分级打标。

7、可选的,在本专利技术一实施例中,利用统计算法与语义算法,对非结构化数据进行关键词抽取处理,得到待打标关键词包括:

8、利用统计算法对非结构化数据进行分词处理,得到多个候选关键词;

9、利用语义算法对候选关键词进行提取处理,得到待打标关键词。

10、可选的,在本专利技术一实施例中,利用分类算法与预先建立的图结构数据本体,确定待打标关键词对应的文本信息类型包括:

11、利用语义算法对待打标关键词进行特征向量提取,得到各待打标关键词对应的特征向量;

12、利用分类算法对特征向量进行分类预测,得到各待打标关键词对应的标签分类概率,并根据预先建立的图结构数据本体及标签分类概率,确定待打标关键词对应的文本信息类型。

13、可选的,在本专利技术一实施例中,根据预先建立的图结构数据本体及标签分类概率,确定待打标关键词对应的文本信息类型包括:

14、对标签分类概率进行排序,并将排序后的标签分类概率与图结构数据本体进行比对,确定待打标关键词对应的文本信息类型。

15、可选的,在本专利技术一实施例中,利用聚类算法与图结构数据本体,确定待打标数据项对应的数据项类型包括:

16、利用聚类算法,对图结构数据本体及待打标数据项进行距离计算与聚类,得到待打标数据项对应的簇,并根据待打标数据项对应的簇,确定待打标数据项对应的数据项类型。

17、可选的,在本专利技术一实施例中,图结构数据本体是通过如下步骤建立的:

18、根据预设的数据分类分级规则,对获取的历史数据进行文本信息分析,确定文本信息及文本信息关系;

19、以文本信息为点,以文本信息关系为边,构建知识图谱;

20、根据预设的数据安全级别规则,对知识图谱进行安全级别标注,得到图结构数据本体。

21、可选的,在本专利技术一实施例中,根据图结构数据本体中数据类别与安全等级的对应关系,分别利用待打标关键词对应的文本信息类型与待打标数据项对应的数据项类型,得到结构化数据对应的安全级别及非结构化数据对应的安全级别,以完成数据分类分级打标包括:

22、根据所述图结构数据本体中数据类别与安全等级的对应关系,将待打标关键词对应的文本信息类型与所述图结构数据本体进行比对,确定待打标关键词对应的安全等级;

23、根据图结构数据本体中数据类别与安全等级的对应关系,将待打标数据项对应的数据项类型与图结构数据本体进行比对,确定待打标数据项对应的安全等级;

24、利用待打标关键词对应的文本信息类型及安全等级,对非结构化数据进行打标,并利用待打标数据项对应的数据项类型及安全等级,对结构化数据进行打标。

25、本专利技术实施例还提供一种基于本体的数据分类分级打标装置,装置包括:

26、待打标数据模块,用于从包括多源异构数据的应用中获取待打标数据,并将待打标数据划分为结构化数据与非结构化数据;

27、非结构化数据模块,用于利用统计算法与语义算法,对非结构化数据进行关键词抽取处理,得到待打标关键词,并利用分类算法与预先建立的图结构数据本体,确定待打标关键词对应的文本信息类型;

28、结构化数据模块,用于对结构化数据进行正则匹配处理,得到待打标数据项,并利用聚类算法与图结构数据本体,确定待打标数据项对应的数据项类型;

29、数据打标模块,用于根据图结构数据本体中数据类别与安全等级的对应关系,分别利用待打标关键词对应的文本信息类型与待打标数据项对应的数据项类型,得到结构化数据对应的安全级别及非结构化数据对应的安全级别,以完成数据分类分级打标。

30、可选的,在本专利技术一实施例中,非结构化数据模块包括:

31、分词处理单元,用于利用统计算法对非结构化数据进行分词处理,得到多个候选关键词;

32、提取处理单元,用于利用语义算法对候选关键词进行提取处理,得到待打标关键词。

33、可选的,在本专利技术一实施例中,非结构化数据模块还包括:

34、特征向量单元,用于利用语义算法对待打标关键词进行特征向量提取,得到各待打标关键词对应的特征向量;

35、标签分类单元,用于利用分类算法对特征向量进行分类预测,得到各待打标关键词对应的标签分类概率,并根据预先建立的图结构数据本体及标签分类概率,确定待打标关键词对应的文本信息类型。

36、可选的,在本专利技术一实施例中,标签分类单元还用于对标签分类概率进行排序,并将排序后的标签分类概率与图结构数据本体进行比对,确定待打标关键词对应的文本信息类型。

37、可选的,在本专利技术一实施例中,结构化数据模块还用于利用聚类算法,对图结构数据本体及待打标数据项进行距离计算与聚类,得到待打标数据项对应的簇,并根据待打标数据项对应的簇,确定待打标数据项对应的数据项类型。

38、可选的,在本专利技术一实施例中,装置还包括:

39、文本信息模块,用于根据预设的数据分类分级规则,对获取的历史数据进行文本信息分析,确定文本信息及文本信息关系;

40、知识图谱模块,用于以文本信息为点,以文本信息关系为边,构建知识图谱;

41、数据本体模块本文档来自技高网...

【技术保护点】

1.一种基于本体的数据分类分级打标方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,利用统计算法与语义算法,对所述非结构化数据进行关键词抽取处理,得到待打标关键词包括:

3.根据权利要求1所述的方法,其特征在于,利用分类算法与预先建立的图结构数据本体,确定所述待打标关键词对应的文本信息类型包括:

4.根据权利要求3所述的方法,其特征在于,根据预先建立的图结构数据本体及所述标签分类概率,确定所述待打标关键词对应的文本信息类型包括:

5.根据权利要求1所述的方法,其特征在于,利用聚类算法与所述图结构数据本体,确定所述待打标数据项对应的数据项类型包括:

6.根据权利要求1所述的方法,其特征在于,所述图结构数据本体是通过如下步骤建立的:

7.根据权利要求1所述的方法,其特征在于,根据所述图结构数据本体中数据类别与安全等级的对应关系,分别利用所述待打标关键词对应的文本信息类型与所述待打标数据项对应的数据项类型,得到所述结构化数据对应的安全级别及所述非结构化数据对应的安全级别,以完成数据分类分级打标包括:

8.一种基于本体的数据分类分级打标装置,其特征在于,所述装置包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有由计算机执行权利要求1至7任一项所述方法的计算机程序。

...

【技术特征摘要】

1.一种基于本体的数据分类分级打标方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,利用统计算法与语义算法,对所述非结构化数据进行关键词抽取处理,得到待打标关键词包括:

3.根据权利要求1所述的方法,其特征在于,利用分类算法与预先建立的图结构数据本体,确定所述待打标关键词对应的文本信息类型包括:

4.根据权利要求3所述的方法,其特征在于,根据预先建立的图结构数据本体及所述标签分类概率,确定所述待打标关键词对应的文本信息类型包括:

5.根据权利要求1所述的方法,其特征在于,利用聚类算法与所述图结构数据本体,确定所述待打标数据项对应的数据项类型包括:

6.根据权利要求1所述的方法,其特征在于,所述图结构数据本...

【专利技术属性】
技术研发人员:孙杰程佩哲敬涛张玲
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1