【技术实现步骤摘要】
本专利技术涉及大模型,具体为一种大模型场景中构造nl2sql数据集的方法及系统。
技术介绍
1、在自然语言处理(nlp)领域,将自然语言(natural language,nl)转换为结构化查询语言(structured query language,sql)的任务,即nl2sql,是一个重要的研究方向。这种技术旨在使非技术用户能够通过自然语言查询数据库,无需编写复杂的sql语句。
2、然而,构建高质量的nl2sql数据集是这一领域的一个挑战,因为数据集需要覆盖广泛的查询场景、具备足够的多样性和准确性,以便有效训练并评估nl2sql模型。
3、传统的nl2sql数据集构建方法往往依赖于人工编写问题及其对应的sql语句,这种方法虽然准确,但效率低下且成本高昂。此外,人工构建的数据集往往难以覆盖所有可能的查询场景和表述方式,限制了模型的泛化能力。
技术实现思路
1、本专利技术的目的在于提供一种大模型场景中构造nl2sql数据集的方法及系统,以解决上述
技术介绍
中提出的问题
2、本文档来自技高网...
【技术保护点】
1.一种大模型场景中构造NL2SQL数据集的方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种大模型场景中构造NL2SQL数据集的方法,其特征在于:构建泛化问题数据集的步骤包括:
3.根据权利要求1所述的一种大模型场景中构造NL2SQL数据集的方法,其特征在于:构建模版问题数据集的步骤包括:
4.根据权利要求1所述的一种大模型场景中构造NL2SQL数据集的方法,其特征在于:数据集构建前,利用业务人员提供的问题表述、表结构信息和部分数据,生成初始种子数据集。
5.根据权利要求4所述的一种大模型场景中构造
...【技术特征摘要】
1.一种大模型场景中构造nl2sql数据集的方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种大模型场景中构造nl2sql数据集的方法,其特征在于:构建泛化问题数据集的步骤包括:
3.根据权利要求1所述的一种大模型场景中构造nl2sql数据集的方法,其特征在于:构建模版问题数据集的步骤包括:
4.根据权利要求1所述的一种大模型场景中构造nl2sql数据集的方法,其特征在于:数据集构建前,利用业务人员提供的问题表述、表结构信息和部分数据,生成初始种子数据集。
5.根据权利要求4所述的一种大模型场景中构造nl2sql数据集的方法,其特征在于:利用大模型对初始种子数据集中的问题进行扩充,得到扩充后的问题;对扩充后的问题进行核验,确保扩充后的语义与原始语义保持一致;利用大模型生成扩充后问题对应的sql语句,形成初始泛化问题数据。
6.一种根据权利要求1-5任意一项所述的大模型场景中构造nl2sql数据集的方法的大模型场景中构...
【专利技术属性】
技术研发人员:颜亮,所嘉懿,薛娇,杜威,李因营,张政凯,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。