System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种在数据治理行业使用大模型匹配数据库的方法及装置制造方法及图纸_技高网

一种在数据治理行业使用大模型匹配数据库的方法及装置制造方法及图纸

技术编号:44945672 阅读:18 留言:0更新日期:2025-04-12 01:20
本发明专利技术提供一种在数据治理行业使用大模型匹配数据库的方法及装置,可以提高数据库查询效率。在数据治理行业使用大模型匹配数据库的方法包括:提取目标数据库的特征以及目标数据库下的表信息;对目标数据库的特征以及目标数据库下的表信息进行向量化处理;基于向量化处理后的目标数据库的特征以及目标数据库下的表信息,建立库向量库和表向量库;对查询信息进行向量化处理,获得向量化后的查询向量结果;基于查询向量结果与库向量库的相似度,确定待查询的库向量库对应的目标数据库;计算查询向量结果与待查询的库向量库对应的目标数据库下表向量库的相似度,以确定待查询的表向量库;基于待查询的表向量库对应的表信息,输出查询结果。

【技术实现步骤摘要】

本专利技术涉及数据库查询,特别涉及一种在数据治理行业使用大模型匹配数据库的方法及装置


技术介绍

1、随着大数据和人工智能技术的迅猛发展,数据已成为企业运营与决策的核心资源。数据治理作为确保数据质量、安全性和合规性的关键环节,其重要性日益凸显。数据库作为大数据产业发展的基础,经历了从简单数据存储到复杂数据管理系统的演变,在大数据环境下,一个数据库可能包含多库、多表,数据库中的数据量庞大且复杂,传统的匹配方法往往需要耗费大量时间进行遍历和比对,难以快速准确从多库、多表中匹配到正确的库、表。


技术实现思路

1、为了解决上述技术问题,提出了本专利技术。本专利技术的实施例提供了一种在数据治理行业使用大模型匹配数据库的方法及装置,可以提高数据库查询效率。

2、根据本专利技术的一个方面,提供了一种在数据治理行业使用大模型匹配数据库的方法,包括:提取目标数据库的特征以及所述目标数据库下的表信息;对所述目标数据库的特征以及所述目标数据库下的表信息进行向量化处理;基于向量化处理后的所述目标数据库的特征以及所述目标数据库下的表信息,建立库向量库和表向量库;对查询信息进行向量化处理,获得向量化后的查询向量结果;基于所述查询向量结果与所述库向量库的相似度,确定待查询的库向量库对应的目标数据库;计算所述查询向量结果与待查询的库向量库对应的目标数据库下所述表向量库的相似度,以确定待查询的表向量库;基于待查询的表向量库对应的表信息,输出查询结果。

3、在一实施例中,基于所述查询向量结果与所述库向量库的相似度,确定待查询的库向量库对应的目标数据库,包括:对于每个目标数据库,计算所述查询向量结果与所述库向量库之间的余弦相似度;其中,余弦相似度的值越接近1,表示所述查询向量结果与所述库向量库越相似,余弦相似度的值越接近-1,表示所述查询向量结果与所述库向量库越不相似;选取余弦距离绝对值最小的记录,获得选库结果;基于所述选库结果确定对应的目标数据库。

4、在一实施例中,在选取余弦距离绝对值最小的记录,获得选库结果之后,在数据治理行业使用大模型匹配数据库的方法包括:基于所述选库结果,获取对应的目标数据库下的待查询的表向量库;其中,计算所述查询向量结果与待查询的库向量库对应的目标数据库下所述表向量库的相似度,以确定待查询的表向量库,包括:以所述查询向量结果作为条件检索待查询的表向量库;基于余弦相似度算法,获得所述查询向量结果与所述表向量库的相似度列表;其中,所述相似度列表中的元素包括所述表向量库中表信息与相似度列表、所述查询向量结果的相似度距离;对所述相似度列表中的所有的相似度距离进行排序;当待查询的表向量库中,存在大于或等于预设阈值的相似度距离,且大于或等于预设阈值的相似度距离的数量大于预设数量,将待查询的表向量库记录到第一选表结果中。

5、在一实施例中,在数据治理行业使用大模型匹配数据库的方法还包括:基于外键关系,建立表与表之间的关联关系;将主表与对应的外键关联表整理为键值对进行存储。

6、在一实施例中,在数据治理行业使用大模型匹配数据库的方法还包括:当所述查询信息存在多表联查,获取待查询的表向量库关联的外键关联表;将所述外键关联表记录到第一选表结果中,形成第二选表结果;其中,基于待查询的表向量库对应的表信息,输出查询结果,包括:基于所述第一选表结果和所述第二选表结果,输出查询结果。

7、在一实施例中,目标数据库的特征包括名称和备注;对所述目标数据库的特征以及所述目标数据库下的表信息进行向量化处理,包括:读取目标数据库的名称及其备注,形成第一描述文本;读取目标数据库下的表信息;提取表信息的内容特征,并形成第二描述文本;拼接所述第一描述文本和所述第二描述文本形成拼接文本内容,并对所述拼接文本内容进行向量化处理;其中,基于向量化处理后的所述目标数据库的特征以及所述目标数据库下的表信息,建立库向量库和表向量库,包括:以向量化处理后的所述拼接文本内容作为索引,构建库向量库。

8、在一实施例中,对所述目标数据库的特征以及所述目标数据库下的表信息进行向量化处理,包括:提取目标数据库下的表信息的详细内容;对详细内容进行拼接并修正,获得修正后的第三描述文本;对所述第三描述文本进行向量化处理,生成向量结果并建立索引;其中,基于向量化处理后的所述目标数据库的特征以及所述目标数据库下的表信息,建立库向量库和表向量库,包括:基于所述向量结果,建立表向量库;其中,每个所述目标数据库的特征对应一个表向量库,每个所述表向量库对应至少一个数据表。

9、在一实施例中,所述详细内容包括:表名、表备注、列名和列备注;其中,对详细内容进行拼接并修正,获得修正后的第三描述文本,包括:将所述表名、所述表备注、所述列名和所述列备注拼接成初步文本;对所述初步文本进行清洗以及数据格式的裁剪,获得修正后的第三描述文本。

10、在一实施例中,对查询信息进行向量化处理,获得向量化后的查询向量结果,包括:基于大型语言模型,提取查询信息的自然语言中的关键要素;其中,所述关键要素包括时间、地点和查询对象;将提取出的关键要素拼接成第一查询文本;去除所述第一查询文本中的标点并且统一大小写,获得第二查询文本;将所述第二查询文本进行向量化处理,获得向量化后的查询向量结果。

11、根据本专利技术的另一个方面,提供了一种在数据治理行业使用大模型匹配数据库的装置,包括:提取模块,用于提取目标数据库的特征以及所述目标数据库下的表信息;处理模块,用于对所述目标数据库的特征以及所述目标数据库下的表信息进行向量化处理;建立模块,用于基于向量化处理后的所述目标数据库的特征以及所述目标数据库下的表信息,建立库向量库和表向量库;向量化模块,用于对查询信息进行向量化处理,获得向量化后的查询向量结果;确定模块,用于基于所述查询向量结果与所述库向量库的相似度,确定待查询的库向量库对应的目标数据库;计算模块,用于计算所述查询向量结果与待查询的库向量库对应的目标数据库下所述表向量库的相似度,以确定待查询的表向量库;输出模块,用于基于待查询的表向量库对应的表信息,输出查询结果。

12、本专利技术提供的在数据治理行业使用大模型匹配数据库的方法及装置,通过向量化数据库以及表信息,可以快速识别数据间的关联性和相似性,从而显著缩短匹配时间,提高数据处理的整体速度,并且提高数据库匹配的准确性和时效性。

本文档来自技高网...

【技术保护点】

1.一种在数据治理行业使用大模型匹配数据库的方法,其特征在于,包括:

2.根据权利要求1所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,基于所述查询向量结果与所述库向量库的相似度,确定待查询的库向量库对应的目标数据库,包括:

3.根据权利要求2所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,在选取余弦距离绝对值最小的记录,获得选库结果之后,在数据治理行业使用大模型匹配数据库的方法包括:

4.根据权利要求3所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,在数据治理行业使用大模型匹配数据库的方法还包括:

5.根据权利要求4所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,在数据治理行业使用大模型匹配数据库的方法还包括:

6.根据权利要求1所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,目标数据库的特征包括名称和备注;对所述目标数据库的特征以及所述目标数据库下的表信息进行向量化处理,包括:

7.根据权利要求1所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,对所述目标数据库的特征以及所述目标数据库下的表信息进行向量化处理,包括:

8.根据权利要求7所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,所述详细内容包括:表名、表备注、列名和列备注;其中,对详细内容进行拼接并修正,获得修正后的第三描述文本,包括:

9.根据权利要求1所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,对查询信息进行向量化处理,获得向量化后的查询向量结果,包括:

10.一种在数据治理行业使用大模型匹配数据库的装置,其特征在于,包括:

...

【技术特征摘要】

1.一种在数据治理行业使用大模型匹配数据库的方法,其特征在于,包括:

2.根据权利要求1所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,基于所述查询向量结果与所述库向量库的相似度,确定待查询的库向量库对应的目标数据库,包括:

3.根据权利要求2所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,在选取余弦距离绝对值最小的记录,获得选库结果之后,在数据治理行业使用大模型匹配数据库的方法包括:

4.根据权利要求3所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,在数据治理行业使用大模型匹配数据库的方法还包括:

5.根据权利要求4所述的在数据治理行业使用大模型匹配数据库的方法,其特征在于,在数据治理行业使用大模型匹配数据库的方法还包括:

6.根据权利要求1所述的在数...

【专利技术属性】
技术研发人员:耿浩然
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1