一种大模型场景中构造NL2SQL数据集的方法及系统技术方案

技术编号：43468336 阅读：12 留言：0更新日期：2024-11-27 13:05

本发明专利技术涉及大模型技术领域，具体为一种大模型场景中构造NL2SQL数据集的方法及系统，包括以下步骤：数据集构建，根据业务需求和用户功能点，构建泛化问题和模版问题两部分数据集；对泛化问题和模版问题进行清洗和难度等级标注；合并泛化问题和模版问题，按比例抽取训练集和测试集；利用训练集和测试集对大模型进行监督微调，以提高大模型根据自然语言生成SQL的能力；有益效果为：本发明专利技术提出的大模型场景中构造NL2SQL数据集的方法及系统，通过业务人员参与问题表述的提供和SQL语句的核验，确保了数据集的质量和业务相关性。同时，利用大模型对问题进行扩充，增加了数据集的多样性和新颖性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型，具体为一种大模型场景中构造nl2sql数据集的方法及系统。

技术介绍

1、在自然语言处理(nlp)领域，将自然语言(natural language,nl)转换为结构化查询语言(structured query language,sql)的任务，即nl2sql，是一个重要的研究方向。这种技术旨在使非技术用户能够通过自然语言查询数据库，无需编写复杂的sql语句。

2、然而，构建高质量的nl2sql数据集是这一领域的一个挑战，因为数据集需要覆盖广泛的查询场景、具备足够的多样性和准确性，以便有效训练并评估nl2sql模型。

3、传统的nl2sql数据集构建方法往往依赖于人工编写问题及其对应的sql语句，这种方法虽然准确，但效率低下且成本高昂。此外，人工构建的数据集往往难以覆盖所有可能的查询场景和表述方式，限制了模型的泛化能力。

技术实现思路

1、本专利技术的目的在于提供一种大模型场景中构造nl2sql数据集的方法及系统，以解决上述
技术介绍
中提出的问题。

2、本文档来自技高网...

【技术保护点】

1.一种大模型场景中构造NL2SQL数据集的方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的一种大模型场景中构造NL2SQL数据集的方法，其特征在于：构建泛化问题数据集的步骤包括：

3.根据权利要求1所述的一种大模型场景中构造NL2SQL数据集的方法，其特征在于：构建模版问题数据集的步骤包括：

4.根据权利要求1所述的一种大模型场景中构造NL2SQL数据集的方法，其特征在于：数据集构建前，利用业务人员提供的问题表述、表结构信息和部分数据，生成初始种子数据集。

5.根据权利要求4所述的一种大模型场景中构造NL2SQL数据集的...

【技术特征摘要】

1.一种大模型场景中构造nl2sql数据集的方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的一种大模型场景中构造nl2sql数据集的方法，其特征在于：构建泛化问题数据集的步骤包括：

3.根据权利要求1所述的一种大模型场景中构造nl2sql数据集的方法，其特征在于：构建模版问题数据集的步骤包括：

4.根据权利要求1所述的一种大模型场景中构造nl2sql数据集的方法，其特征在于：数据集构建前，利用业务人员提供的问题表述、表结构信息和部分数据，生成初始种子数据集。

5.根据权利要求4所述的一种大模型场景中构造nl2sql数据集的方法，其特征在于：利用大模型对初始种子数据集中的问题进行扩充，得到扩充后的问题；对扩充后的问题进行核验，确保扩充后的语义与原始语义保持一致；利用大模型生成扩充后问题对应的sql语句，形成初始泛化问题数据。

6.一种根据权利要求1-5任意一项所述的大模型场景中构造nl2sql数据集的方法的大模型场景中构...

【专利技术属性】
技术研发人员：颜亮，所嘉懿，薛娇，杜威，李因营，张政凯，
申请(专利权)人：浪潮云信息技术股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人