一种数据平台元数据注释补全方法和系统及设备技术方案

技术编号:46629228 阅读:1 留言:0更新日期:2025-10-14 21:27
本发明专利技术涉及数据治理技术领域,提供一种数据平台元数据注释补全方法和系统及设备,包括:通过标准应用程序接口采集多源异构数据库中的元数据基础注释;采集逻辑模型定义文档和数据标准规范文档,通过向量化处理构建本地知识库;当用户触发注释补全时,通过大语言模型调用本地知识库,生成元数据智能注释;将采集的元数据基础注释和生成的元数据智能注释作为注释补全结果返回至用户。根据本发明专利技术的数据平台元数据注释补全方法和系统及设备,可以实现元数据采集归一化、多源知识融合与知识库构建、智能注释补全降本增效、显著提升元数据注释质量、降低使用门槛。

【技术实现步骤摘要】

本专利技术涉及数据治理,尤其涉及一种数据平台元数据注释补全方法和系统及设备


技术介绍

1、在数据中台和数据仓库体系中,元数据(metadata)作为“数据的数据”,是支撑数据管理、治理和应用的核心基础。元数据的注释是元数据结构的重要组成部分,其作用主要体现在:提升数据可理解性:通过为库表、字段添加业务语义描述(如用途、来源、关联规则),帮助数据开发者、数据分析师和业务人员快速理解数据逻辑,降低沟通成本。支持数据治理场景:注释是数据血缘分析、质量评估和合规审计的基础,例如通过外键约束注释可追踪数据流向,确保一致性。加强智能体推理能力:在某些细分领域,元数据定义具有一定的行业性或专业性,与智能体结合的数据应用场景下,需要通过元数据注释加强智能体对数据模型定义、数据模型关系的理解,从而提升智能体的综合推理能力,更好的服务于数据智能应用。

2、现有的元数据注释补全方式有如下三种:

3、1.依赖源端数据库的注释采集:通过采集源端数据库中库、表、字段的注释信息。在实际应用中,当源端数据库在定义库、表、字段结构时未定义注释时,这种方法将无法获取本文档来自技高网...

【技术保护点】

1.一种数据平台元数据注释补全方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的数据平台元数据注释补全方法,其特征在于,步骤S1中,通过JDBC接口连接多源异构数据库,获取元数据基础注释,所述元数据基础注释包括数据库信息以及数据库中已存在的表注释和字段注释,所述数据库信息包括库、表、字段元数据。

3.根据权利要求1所述的数据平台数据注释补全方法,其特征在于,步骤S2中,在向量化处理前,对采集的逻辑模型定义文档和数据标准规范文档进行预处理和分片处理。

4.根据权利要求1所述的数据平台数据注释补全方法,其特征在于,步骤S2,包括:

<...

【技术特征摘要】

1.一种数据平台元数据注释补全方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的数据平台元数据注释补全方法,其特征在于,步骤s1中,通过jdbc接口连接多源异构数据库,获取元数据基础注释,所述元数据基础注释包括数据库信息以及数据库中已存在的表注释和字段注释,所述数据库信息包括库、表、字段元数据。

3.根据权利要求1所述的数据平台数据注释补全方法,其特征在于,步骤s2中,在向量化处理前,对采集的逻辑模型定义文档和数据标准规范文档进行预处理和分片处理。

4.根据权利要求1所述的数据平台数据注释补全方法,其特征在于,步骤s2,包括:

5.根据权利要求4所述的数据平台数据注释补全方法,其特征在于,步骤s2中,将文档对象分割为多个文本块,根据文本块的内容类型将文本块二次分割为对应大小的文本段落,在二次分割时为每个文本段落设置重叠字符。

6.根据权利要求1所述的数据平台元数据注释补全方法,其特征在于,步骤s...

【专利技术属性】
技术研发人员:常宵阳
申请(专利权)人:中电云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1