一种基于特征识别的数据分类分级方法及装置制造方法及图纸

技术编号：40503321 阅读：4 留言：0更新日期：2024-03-01 13:16

本发明专利技术提供一种基于特征识别的数据分类分级方法，包括步骤：数据采集，采集的数据信息包括数据库名称、数据表名称、数据表备注、字段名称、字段备注、字段类型和字段长度；对数据进行字段特征识别，根据特征信息所在的标签进行筛选，推荐出特征标签；基于国家、行业的分类分级标准与数据特征标签匹配的方式对数据进行分类和分级。本发明专利技术还提供一种基于特征识别的数据分类分级装置，包括采集模块、标签模块和分类模块。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据管理，具体涉及一种基于特征的数据分类分级方法及装置。

技术介绍

1、

2、目前的数据分类和分级方法主要是人工手动分类、基于规则的分类和机器学习的分类三种：

3、人工手动：数据的分类分级全部都有人工手动完成，这也是传统最常用的数据分类分级方法。

4、基于规则：通过正则表达式和数据字典对一些有特征的数据进行分类分级。

5、人工智能：通过机器学习、知识图谱、人工智能等技术，对数据进行自动分类分级。

6、现有技术方案存在以下缺点：

7、（1）人工手动：手动分类效率低下，耗时耗力；

8、（2）基于规则：正则表达式和数据字典识别的数据是有限的，主要使用与有特征的数据，例如数据姓名、手机号、邮箱这类有明确特征的数据，分类适用范围有限；

9、人工智能：基于机器学习的分类需要大量的训练数据和算法优化，且结果不能保证准确性。

技术实现思路

1、鉴于上述技术问题，为了克服上述现有技术的不足，本专利技术提出了一种基于特征识别的分类分级方法，以提高分类和分级的效率和准确性，实现数据资产的统一管理。

2、本专利技术提供一种基于特征识别的数据分类分级方法，包括步骤：数据采集，采集的数据信息包括数据库名称、数据表名称、数据表备注、字段名称、字段备注、字段类型和字段长度；对数据进行字段特征识别，根据特征信息所在的标签进行筛选，推荐出特征标签；基于国家、行业的分类分级标准与数据特征标签匹配的方式对数据进行分类和分级。

3、对数据进行字段特征识别，包括：

4、s21、创建字段特征库；

5、s22、将采集的数据信息和所述字段特征库里的字段特征信息进行匹配。

6、进一步，所述s21中，字段特征库包括：标签名称、标签描述、业务场景、数据库名称、数据表名称、数据表备注、字段名称、字段备注、字段类型和字段长度。

7、进一步，所述s22中，所述匹配包括：若采集数据信息和特征库里特征信息全等匹配，直接得出特征标签；若采集数据信息和特征库里特征信息不全等匹配，则根据综合相似度推荐出特征标签。

8、进一步，所述综合相似度计算包括步骤：

9、s221、用编辑距离算法计算字段名称、字段类型、字段长度的相似度；

10、s222、判断字段备注是否为空；

11、s223、判断表名称、表备注、库名称是否存在；

12、s224、按照系数公式计算综合相似度，综合相似度=0.25*字段名称+0.2*字段备注+0.15*字段类型+0.15*字段长度+0.1*表名称+0.1*表备注+0.05*库名称。

13、进一步，所述s221，所述相似度的计算公式为：1-(x/max(a,b))，x为处理次数，max(a,b)为a、b字符串中长度更长的字符串。

14、进一步，所述s222，所述字段备注如果为空则用编辑距离算法计算字段名称相似度；否则，用编辑距离算法计算字段备注的相似度。

15、进一步，所述s3，数字资产特征标签与有基于国家、行业分类分级标准的分类标签进行匹配，若全等，该数据资产直接属于该分类分级；若不全等，则运用编辑距离公式计算其匹配度。

16、本专利技术的另一实施例提供一种基于特征识别的数据分类分级装置，包括：

17、采集模块，用于数据采集，采集的数据信息包括数据库名称、数据表名称、数据表备注、字段名称、字段备注、字段类型和字段长度；

18、字段特征库，包括：标签名称、标签描述、业务场景、数据库名称、数据表名称、数据表备注、字段名称、字段备注、字段类型和字段长度；

19、标签模块，用于对采集数据进行字段特征识别，根据特征信息所匹配的字段特征库的标签进行筛选，推荐出特征标签；

20、分类模块，用于基于国家、行业的分类分级标准与数据特征标签匹配的方式对数据进行分类和分级。

21、本专利技术的技术方案具有以下有益效果：

22、（1）提高了数据分类和分级的效率和准确性，减少人力成本和时间成本。

23、（2）字段备注提取和特征库的识别方式相结合，解决规则识别方式仅可识别特征数据的限制，也可解决人工智能识别中需要大量数据样例的问题，帮助用户快速实现业务数据的识别和数据分类分级。

24、（3）可以根据不同的领域和行业进行自定义设置，以满足不同的分类和分级需求，具有较高的灵活性和适用性。

本文档来自技高网...

【技术保护点】

1.一种基于特征识别的数据分类分级方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述S22中，所述匹配包括：若采集数据信息和特征库里特征信息全等匹配，直接得出特征标签；若采集数据信息和特征库里特征信息不全等匹配，则根据综合相似度推荐出特征标签。

3.根据权利要求2所述的方法，其特征在于，所述综合相似度计算包括步骤：

4.根据权利要求3所述的方法，其特征在于，所述S221，所述相似度的计算公式为：1-(x/max(A,B))，x为处理次数，max(A,B)为A、B字符串中长度更长的字符串。

5.根据权利要求3所述的方法，其特征在于，所述S222，所述字段备注如果为空则用编辑距离算法计算字段名称相似度；否则，用编辑距离算法计算字段备注的相似度。

6.根据权利要求3所述的方法，其特征在于，所述S223，若表名称、表备注、库名称不存在，分别输出20%匹配值；若表名称、表备注、库名称存在，用编辑距离算法计算相似度。

7.根据权利要求1所述的方法，其特征在于，所述S3，数字资产特征标签与有基于国家、

8.一种基于特征识别的数据分类分级装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于特征识别的数据分类分级方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述s22中，所述匹配包括：若采集数据信息和特征库里特征信息全等匹配，直接得出特征标签；若采集数据信息和特征库里特征信息不全等匹配，则根据综合相似度推荐出特征标签。

3.根据权利要求2所述的方法，其特征在于，所述综合相似度计算包括步骤：

4.根据权利要求3所述的方法，其特征在于，所述s221，所述相似度的计算公式为：1-(x/max(a,b))，x为处理次数，max(a,b)为a、b字符串中长度更长的字符串。

5.根据权利要求3所述的方法...

【专利技术属性】
技术研发人员：郭冬梅，郑敏波，陈青民，
申请(专利权)人：北京安信天行科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人