一种基于大模型实现数据资产建设方法及装置制造方法及图纸

技术编号:39649118 阅读:8 留言:0更新日期:2023-12-09 11:17
本申请公开的属于数据处理技术领域,具体为一种基于大模型实现数据资产建设方法,包括数据准备

【技术实现步骤摘要】
一种基于大模型实现数据资产建设方法及装置


[0001]本申请涉及数据处理
,具体为一种基于大模型实现数据资产建设方法及装置


技术介绍

[0002]大模型:
Large Language Model(
大规模语言模型
)

[0003]垂直大模型:面向某个具体行业或场景应用的大规模语言模型;
[0004]数据资产:指由个人或企业拥有或者控制的,能够为企业带来潜在经济;利益的,以物理或电子的方式记录的数据资源,通常可以为某个具体的业务场景带来业务价值的提升;
[0005]数据资产图谱:由数据资产为基本单位

组成的数据图谱,每个节点都是企业的具体的数据资产,并定义了数据资产之间的关联关系;
[0006]ETL
工程师:做数据抽取

转换

加载的工程师;
[0007]Chinese

LLaMA

Alpaca

7B
:支持中文的开源大模型;
[0008]企业数据资产建设困境主要有两个:一

即使企业有大数据平台的支持,也需要大量专业人员在对业务理解做深入理解后,编写
SQL
对数据清洗

提取和分析,生成标签等数据资产,供业务在实际场景中使用,产生对应的业务价值,这个过程需要大量
ETL
工程师深入非技术专业的业务场景,需要对业务有深刻的理解才能生成对业务有价值的资产;二

产生的数据资产相对比较封闭,互通性很差,不同业务建立的数据资产具有很强的垂直业务属性,很难通用,造成大量的资产浪费,经常出现重复建设的情况,造成
ETL
工程师的人力和大数据平台的硬件资源的重复投入和浪费


技术实现思路

[0009]本申请的目的在于提供一种基于大模型实现数据资产建设方法及装置,以解决上述
技术介绍
中提出的要大量
ETL
工程师深入非技术专业的业务场景,需要对业务有深刻的理解才能生成对业务有价值的资产;
ETL
工程师的人力和大数据平台的硬件资源的重复投入和浪费的问题

[0010]为实现上述目的,本申请提供如下技术方案:一种基于大模型实现数据资产建设方法,包括以下步骤:
[0011]步骤1,数据准备,数据集包括两部分,一部分包括
SQL
查询语句,另外一部分是包括文本描述和对应
SQL
查询语句,通过数据预处理对数据进行清洗,得到纯
SQL
语句

文本描述和
SQL
语句;
[0012]步骤2,垂直模型训练,基于基础大模型做垂直领域的训练,基于步骤1中的纯
SQL
语句做模型的预训练,首先会冻结
transformer
参数,只训练
embedding
的模型,并在优化器中添加过滤器把对应的参数过滤掉,之后再基于步骤1中文本描述和对应
SQL
查询语句数据做模型的微调,为模型添加调节器权重,训练
embedding
的同时也同步更新对应的权重参
数,增加可训练参数的数量,在
prompt
的设计上,采用指令
+
输入的形式进行拼接,最后,将预训练和微调的权重合并回基础模型,并通过最终的权重进行模型的推理测试;
[0013]步骤3,数据资产建设,步骤2生成的面向数据分析领域的垂直大模型,通过语言文本交互的方式,让具体场景的业务人员通过对业务的描述,并基于在指令中设置好传给大模型的数据表结构信息,让大模型基于对业务场景和语义的理解,转化成可以在这些数据表中查询的
SQL
语句,并通过数据平台直接执行的方式把数据分析结果返回给业务人员直接查看使用,之后再通过多轮交互的方式,找到对业务人员有帮助的

可以产生业务价值的数据资产;
[0014]步骤4,数据资产图谱建设,按照固定周期,把步骤3历史生成的数据资产,以及生成数据资产的交互过程,都输入到步骤2的垂直大模型中,让大模型通过对描述内容进行语义理解的方式,找到已有的数据资产之间的关系,通过各个数据资产之间的关系,生成对应的数据资产图谱;
[0015]步骤5,基于数据资产图谱的数据资产建设,在之后日常的业务人员和垂直大模型交互时,垂直大模型会优先在步骤4生成的数据资产图谱中,寻找和当前业务相关的已有的数据资产,如果已有数据资产可以满足当前业务场景的需求,直接将对应的数据资产返回,如果是部分满足或者不满足当前的业务需求,就再通过步骤3的方式找到当前可以满足业务需求的数据资产

[0016]降低了生成数据资产的门槛,使非数据查询和分析专业的业务人员也可以根据实际的业务需求生成对应的数据结果,生成可以提升业务价值的数据资产,通过历史描述交互文本的语义之间的关联把对应的资产建立成对应图谱关系,这样可以让大模型更好的理解数据资产之间的关系,达到很好的通用性

[0017]优选的,所述步骤1中的数据预处理包括表模式增强进行
SQL
清洗

使用和大模型交互的噪声指令生成指令描述

[0018]优选的,所述步骤2中基础大模型为支持中文的
Chinese

LLaMA

Alpaca

7B
开源大模型

[0019]优选的,所述步骤4中基于数据资产图谱能够让大模型更好地去梳理各个资产之间的层级和相关性

[0020]一种基于大模型实现数据资产建设的装置,包括:
[0021]数据准备模块,用于通过数据预处理对数据进行清洗,得到纯
SQL
语句

文本描述和
SQL
语句;
[0022]垂直模型训练模块,用于基于基础大模型做垂直领域的训练,基于数据准备模块中的纯
SQL
语句做模型的预训练,首先会冻结
transformer
参数,只训练
embedding
的模型,并在优化器中添加过滤器把对应的参数过滤掉,之后再基于数据准备模块中文本描述和对应
SQL
查询语句数据做模型的微调,为模型添加调节器权重,训练
embedding
的同时也同步更新对应的权重参数,增加可训练参数的数量,在
prompt
的设计上,采用指令
+
输入的形式进行拼接,最后,将预训练和微调的权重合并回基础模型,并通过最终的权重进行模型的推理测试;
[0023]数据资产建设模块,用于通过语言文本交互的方式,让具体场景的业务人员通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大模型实现数据资产建设方法,其特征在于,包括以下步骤:步骤1,数据准备,数据集包括两部分,一部分包括
SQL
查询语句,另外一部分是包括文本描述和对应
SQL
查询语句,通过数据预处理对数据进行清洗,得到纯
SQL
语句

文本描述和
SQL
语句;步骤2,垂直模型训练,基于基础大模型做垂直领域的训练,基于步骤1中的纯
SQL
语句做模型的预训练,首先会冻结
transformer
参数,只训练
embedding
的模型,并在优化器中添加过滤器把对应的参数过滤掉,之后再基于步骤1中文本描述和对应
SQL
查询语句数据做模型的微调,为模型添加调节器权重,训练
embedding
的同时也同步更新对应的权重参数,增加可训练参数的数量,在
prompt
的设计上,采用指令
+
输入的形式进行拼接,最后,将预训练和微调的权重合并回基础模型,并通过最终的权重进行模型的推理测试;步骤3,数据资产建设,步骤2生成的面向数据分析领域的垂直大模型,通过语言文本交互的方式,让具体场景的业务人员通过对业务的描述,并基于在指令中设置好传给大模型的数据表结构信息,让大模型基于对业务场景和语义的理解,转化成可以在这些数据表中查询的
SQL
语句,并通过数据平台直接执行的方式把数据分析结果返回给业务人员直接查看使用,之后再通过多轮交互的方式,找到对业务人员有帮助的

可以产生业务价值的数据资产;步骤4,数据资产图谱建设,按照固定周期,把步骤3历史生成的数据资产,以及生成数据资产的交互过程,都输入到步骤2的垂直大模型中,让大模型通过对描述内容进行语义理解的方式,找到已有的数据资产之间的关系,通过各个数据资产之间的关系,生成对应的数据资产图谱;步骤5,基于数据资产图谱的数据资产建设,在之后日常的业务人员和垂直大模型交互时,垂直大模型会优先在步骤4生成的数据资产图谱中,寻找和当前业务相关的已有的数据资产,如果已有数据资产可以满足当前业务场景的需求,直接将对应的数据资产返回,如果是部分满足或者不满足当前的业务需求,就再通过步骤3的方式找到当前可以满足业务需求的数据资产
。2.
根据权利要求1所述的一种基于大模型实现数据资产建设方法,其特征在于:所述步骤1中的数据预处理包括表模式增强进行
SQ...

【专利技术属性】
技术研发人员:李翔唐宏禹朱威平
申请(专利权)人:珠海市卓轩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1