一种改进的基于生成式大语言模型的NL2SQL方法技术

技术编号：38992983 阅读：14 留言：0更新日期：2023-10-07 10:23

本发明专利技术适用于自然语言处理技术领域，提供一种改进的基于生成式大语言模型的NL2SQL方法，包括步骤S1、预处理数据库的表信息；步骤S2、自然语言问句预处理；步骤S3、目标表匹配；步骤S4、大语言模型结果输出；步骤S5、提取SQL语句并输出。本发明专利技术使用生成式大语言模型，利用思维链方式构建prompt语句去提升匹配精度，不需要端到端地重新训练，在数据库表结构频繁更新的实际生产环境中适用性更好。另外，本发明专利技术采取前置计算表、列加权得分的方式，解决实际生产环境中多表重复列干扰环境下的，数据库查询语义识别问题，该方法能够帮助大语言模型更好地理解和匹配自然语言问句中相关的表、列信息，提升最终结果的准确度。提升最终结果的准确度。提升最终结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的基于生成式大语言模型的NL2SQL方法

[0001]本专利技术属于自然语言处理
，尤其涉及一种改进的基于生成式大语言模型的NL2SQL方法。

技术介绍

[0002]自然语言转SQL（Natural Language to SQL，NL2SQL）是一种将用户输入的自然语言描述转换为结构化SQL检索语句的技术。这种技术的产生旨在降低数据库检索使用门槛，使得不具备数据库专业知识储备的非技术人员能够通过输入自然语言文本，即可快捷地获得数据信息。例如用户输入“查询需要重点关注的流动人口数量”，比如通过NL2SQL技术可将其转换为可执行的SQL查询语句：“SELECT COUNT(*) FROM p_floating WHERE IS_FOCUS = 1;”，进而获得数据库中的数据。
[0003]随着人工智能技术发展深入，逐渐形成了基于深度学习的NL2SQL方法，解决了传统的基于规则匹配的方法的局限性与不灵活性。然而深度学习模型需要耗费大量人力投入以构建训练数据集，其实施成本较高，且面对表结构信息频繁更新的生产环境，往往需要重新训练才能保持较高的准确率，不便于应用推广。以此产生了一系列基于预训练语言模型的方法，而由于自然语言与SQL语句之间存在着语义代沟，典型的预训练语言模型（如BERT及衍生模型，只编码，不解码）无法充分捕捉自然语言和SQL语句之间的复杂语义和结构对应关系，尤其是在跨域或多轮交互的情况下，需要结合其他的模块或技术，如抽象语法树、关系注意力、文本
‑
表格数据连接等来提高S

【技术保护点】

【技术特征摘要】
1.一种改进的基于生成式大语言模型的NL2SQL方法，其特征在于，所述方法包括下述步骤：步骤S1、预处理数据库的表信息得到注释的文本特征向量集合，并计算表的各列权重；步骤S2、对输入的自然语言问句进行分词，然后通过文本嵌入操作得到分词的文本特征向量集合；步骤S3、根据注释和分词的文本特征向量集合以及列权重，计算加权余弦相似度，最终得到自然语言问句的匹配目标表；步骤S4、将匹配目标表的表列信息拼接prompt指令，输入生成式大语言模型，得到大语言模型结果输出；步骤S5、从大语言模型结果输出提取SQL语句并输出。2.如权利要求1所述改进的基于生成式大语言模型的NL2SQL方法，其特征在于，所述步骤S1具体过程如下：S11、获取数据库中所有的表注释和列注释，对列注释做去重处理，将表注释、列注释做文本嵌入操作并归一化处理，获得表注释、列注释的文本特征向量集合U；S12、计算数据库各列权重，其中列col
x
的权重记为score(col
x
)，，num(table)为数据库中表总数，num（col
x
）为含有列col
x
的表的数目。3.如权利要求2所述改进的基于生成式大语言模型的NL2SQL方法，其特征在于，所述步骤S2具体过程如下：S21、对输入的自然语言问句L去停用词后进行分词，得到分词集合C1；S22、获取扩展分词集合C2，其中扩展分词集合C2中的词语是由分词集合C1中各词语相邻的p个词语所组成的短语；S23、将分词集合C1和扩展分词集合C2进行合并，得到自然语言问句L的最终分词结果集合C；S24、通过文本嵌入操作得到分词结果集合C的文本特征向量集合V。4.如权利要求3所述改进的基于生成式大语言模型的NL2SQL方法，其特征在于，所述步骤S3具体过程如下：S31、遍历文本特征向量集合V中的每个向量，针对当前获取的向量V
i
，在文本特征向量集合U中查...

【专利技术属性】
技术研发人员：段春先，刘梦军，李颖，陈胜鹏，许继伟，雷振，刘高，李小超，王敬佩，付卓，韩小乐，夏帷，王锋，
申请(专利权)人：吉奥时空信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人