【技术实现步骤摘要】
一种基于大模型实现数据资产建设方法及装置
[0001]本申请涉及数据处理
,具体为一种基于大模型实现数据资产建设方法及装置
。
技术介绍
[0002]大模型:
Large Language Model(
大规模语言模型
)
;
[0003]垂直大模型:面向某个具体行业或场景应用的大规模语言模型;
[0004]数据资产:指由个人或企业拥有或者控制的,能够为企业带来潜在经济;利益的,以物理或电子的方式记录的数据资源,通常可以为某个具体的业务场景带来业务价值的提升;
[0005]数据资产图谱:由数据资产为基本单位
、
组成的数据图谱,每个节点都是企业的具体的数据资产,并定义了数据资产之间的关联关系;
[0006]ETL
工程师:做数据抽取
、
转换
、
加载的工程师;
[0007]Chinese
‑
LLaMA
‑
Alpaca
‑
7B
:支持中文的开源大模型;
[0008]企业数据资产建设困境主要有两个:一
、
即使企业有大数据平台的支持,也需要大量专业人员在对业务理解做深入理解后,编写
SQL
对数据清洗
、
提取和分析,生成标签等数据资产,供业务在实际场景中使用,产生对应的业务价值,这个过程需要大量
ETL
工程师深入非技术专业的业务场景,需要对业务 ...
【技术保护点】
【技术特征摘要】
1.
一种基于大模型实现数据资产建设方法,其特征在于,包括以下步骤:步骤1,数据准备,数据集包括两部分,一部分包括
SQL
查询语句,另外一部分是包括文本描述和对应
SQL
查询语句,通过数据预处理对数据进行清洗,得到纯
SQL
语句
、
文本描述和
SQL
语句;步骤2,垂直模型训练,基于基础大模型做垂直领域的训练,基于步骤1中的纯
SQL
语句做模型的预训练,首先会冻结
transformer
参数,只训练
embedding
的模型,并在优化器中添加过滤器把对应的参数过滤掉,之后再基于步骤1中文本描述和对应
SQL
查询语句数据做模型的微调,为模型添加调节器权重,训练
embedding
的同时也同步更新对应的权重参数,增加可训练参数的数量,在
prompt
的设计上,采用指令
+
输入的形式进行拼接,最后,将预训练和微调的权重合并回基础模型,并通过最终的权重进行模型的推理测试;步骤3,数据资产建设,步骤2生成的面向数据分析领域的垂直大模型,通过语言文本交互的方式,让具体场景的业务人员通过对业务的描述,并基于在指令中设置好传给大模型的数据表结构信息,让大模型基于对业务场景和语义的理解,转化成可以在这些数据表中查询的
SQL
语句,并通过数据平台直接执行的方式把数据分析结果返回给业务人员直接查看使用,之后再通过多轮交互的方式,找到对业务人员有帮助的
、
可以产生业务价值的数据资产;步骤4,数据资产图谱建设,按照固定周期,把步骤3历史生成的数据资产,以及生成数据资产的交互过程,都输入到步骤2的垂直大模型中,让大模型通过对描述内容进行语义理解的方式,找到已有的数据资产之间的关系,通过各个数据资产之间的关系,生成对应的数据资产图谱;步骤5,基于数据资产图谱的数据资产建设,在之后日常的业务人员和垂直大模型交互时,垂直大模型会优先在步骤4生成的数据资产图谱中,寻找和当前业务相关的已有的数据资产,如果已有数据资产可以满足当前业务场景的需求,直接将对应的数据资产返回,如果是部分满足或者不满足当前的业务需求,就再通过步骤3的方式找到当前可以满足业务需求的数据资产
。2.
根据权利要求1所述的一种基于大模型实现数据资产建设方法,其特征在于:所述步骤1中的数据预处理包括表模式增强进行
SQ...
【专利技术属性】
技术研发人员:李翔,唐宏禹,朱威平,
申请(专利权)人:珠海市卓轩科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。