智能数据标准目录生成方法和装置制造方法及图纸

技术编号:26303996 阅读:34 留言:0更新日期:2020-11-10 19:59
本发明专利技术提供了一种智能数据标准目录生成方法和装置,通过扫描待分类数据集获取元数据,将元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名,且将表名以SQL形式存储于数据库中;根据每个目标数据的数据特征生成每个目标数据对应的表名注释;根据每个目标数据的调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个目标数据进行综合评估,计算出每个目标数据的综合评分等级;以表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成多个目标数据的数据目录。实现数据资产的流通与管理,帮助数据开发人员全面化、自动化和智能化地开发与管理,便于数据使用者使用数据。

【技术实现步骤摘要】
智能数据标准目录生成方法和装置
本专利技术属于计算机
,尤其涉及一种智能数据标准目录生成方法、装置、电子设备及可存储介质。
技术介绍
大多数组织、企业普遍存在数据分散、数据来源多,整合后数据不一致,不同数据源的接口众多,同一类数据采用的标准、规则都不一致,无法确认数据的可信度、时效性、重要性等问题。人们花费了太多的时间去寻找有意义的、可信赖的数据,尽管数据专业人员花费大部分时间来获得洞察力,花在执行分析上的时间是搜索和准备数据所花费时间的一小部分。因此,需要将数据进行分类,形成便于使用和查找的数据目录。
技术实现思路
本专利技术实施例的第一目的在于提供一种智能数据标准目录生成方法,可实现将海量数据集进行智能自动分类,形成便于使用和查找的数据目录。本专利技术实施例是这样实现的,一种智能数据标准目录生成方法,包括:扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名,且将所述表名以SQL形式存储于数据库中;根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释;统计每个所述目标数据的调用热度,检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估,计算出每个所述目标数据的综合评分等级;以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。在一个实施例中,在所述扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名之后,还包括:获取每个所述表名所对应的目标数据的表的行数、表的创建时间,表的更新时间,以序号为表头,所述表名、表的行数、表的创建时间,表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。在一个实施例中,所述根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释包括:通过语义分析和通用术语识别,推荐字段名称、字段长度和字段注释,根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。在一个实施例中,所述扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名包括:基于AI人工智能技术,扫描全域数据集获取元数据,通过机器学习智能感知所述元数据,聚类分析所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名。在一个实施例中,所述统计每个所述目标数据的调用热度,检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估,计算出每个所述目标数据的综合评分等级包括:基于所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的预设阈值、预设周期和预设权重分值,计算出所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的分值,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的分值计算出每个所述目标数据的评估分值,根据所述评估分值基于预设评估规则得出所述综合评分等级,所述综合评分等级包括优、良、中、低和差。本专利技术实施例的另一目的在于提供一种智能数据标准目录生成装置,包括:元数据获取模块,用于扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名,且将所述表名以SQL形式存储于数据库中;表名注释生成模块,用于根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释;数据评估模块,用于统计每个所述目标数据的调用热度,检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估,计算出每个所述目标数据的综合评分等级;数据目录生成模块,用于以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。在一个实施例中,所述元数据获取模块还用于获取每个所述表名所对应的目标数据的表的行数、表的创建时间,表的更新时间,以序号为表头,所述表名、表的行数、表的创建时间,表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。在一个实施例中,所述表名注释生成模块还用于通过语义分析和通用术语识别,推荐字段名称、字段长度和字段注释,根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。本专利技术实施例的又一目的在于提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述智能数据标准目录生成方法的步骤。本专利技术实施例的再一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述智能数据标准目录生成方法的步骤。本专利技术的有益效果是:本专利技术实施例提供的一种智能数据标准目录生成方法,包括:扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名,且将所述表名以SQL形式存储于数据库中;根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释;统计每个所述目标数据的调用热度,检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估,计算出每个所述目标数据的综合评分等级;以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。通过对待分类数据集进行扫描以获得元数据,将所述元数据进行智能感知分析将同类数据进行整理得到目标数据并生成目标数据的表名,且将表名通过SQL形式存储,可以便于数据的管理和用户的查找使用;以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录可以使用户直观的从多角度查看数据的可用性,花费最少的时间去寻找有意义的、可信赖的数据,整体实现数据安全的精准控制和数据资产的流通与管理,帮助数据开发人员全面化、自动化和智能化地开发与管理,便于数据使用者使用数据。本专利技术实施例提供的智能数据标准目录生成装置、电子设备及可存储介质具有与本专利技术实施例的数据质量管理方法相同的有益效果。...

【技术保护点】
1.一种智能数据标准目录的生成方法,其特征在于,包括:/n扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名,且将所述表名以SQL形式存储于数据库中;/n根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释;/n统计每个所述目标数据的调用热度,检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估,计算出每个所述目标数据的综合评分等级;/n以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。/n

【技术特征摘要】
1.一种智能数据标准目录的生成方法,其特征在于,包括:
扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名,且将所述表名以SQL形式存储于数据库中;
根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释;
统计每个所述目标数据的调用热度,检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估,计算出每个所述目标数据的综合评分等级;
以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。


2.根据权利要求1所述的智能数据标准目录生成方法,其特征在于,在所述扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名之后,还包括:获取每个所述表名所对应的目标数据的表的行数、表的创建时间,表的更新时间,以序号为表头,所述表名、表的行数、表的创建时间,表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。


3.根据权利要求1所述的智能数据标准目录生成方法,其特征在于,所述根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释包括:通过语义分析和通用术语识别,推荐字段名称、字段长度和字段注释,根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。


4.根据权利要求1所述的智能数据标准目录生成方法,其特征在于,所述扫描待分类数据集获取元数据,智能感知所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名包括:基于AI人工智能技术,扫描全域数据集获取元数据,通过机器学习智能感知所述元数据,聚类分析所述元数据,将所述元数据中的相似数据进行聚类得到多个目标数据,生成每个目标数据的表名。


5.根据权利要求1所述的智能数据标准目录生成方法,其特征在于,所述统计每个所述目标数据的调用热度,检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度,根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估,计算出每个所述目标数据的综合评分等级包括:基于所述调用热度、...

【专利技术属性】
技术研发人员:乔吴岭吴林强林健刘飞燕孟庆丰黄亮
申请(专利权)人:杭州城市大数据运营有限公司湖州市大数据运营有限公司杭州中云数据科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1