一种基于思考推理的NL2SQL方法及系统技术方案

技术编号:46532203 阅读:2 留言:0更新日期:2025-09-30 18:55
本发明专利技术涉及文本生成技术领域,提供了一种基于思考推理的NL2SQL方法及系统,通过引入强化学习机制使模型与数据库环境交互获得奖励信号反馈。系统包含表字段召回组件和结构化查询语言生成组件。表字段召回组件将表字段信息填充至预设模板构建结构化文本,然后进行向量化处理并存储至弹性搜索引擎,再根据用户查询检索相关表,最后通过字段选择器模型筛选具体字段。结构化查询语言生成组件接收筛选结果,结合用户查询生成结构化查询语言,并过滤值进行检索替换。在训练方面,该方法结合监督微调冷启动与强化学习推理训练,模型通过试错学习根据输入上下文进行推理思考。强化学习训练过程中采用基于任务执行结果正确性的奖励函数迭代优化模型。

【技术实现步骤摘要】

本专利技术涉及文本生成,更具体地说,本专利技术涉及一种基于思考推理的nl2sql方法及系统。


技术介绍

1、自然语言到sql(nl2sql)技术作为连接人类语言与数据库操作的桥梁,旨在将非结构化查询转化为精确的结构化查询语言。随着大语言模型(llms)的崛起,nl2sql技术在简单查询场景中已展现较高准确率,但在复杂查询处理和领域适应性方面仍面临显著挑战。

2、当前主流方法主要依赖于监督微调(supervised fine-tuning,sft)进行模型训练,其核心机制是通过静态样本学习固定的模式映射关系。然而,这种方法在处理涉及多表连接(join)、嵌套子查询、复杂聚合函数等复杂场景时表现明显下降。根据nl2sql360评估框架的分析结果显示,现有模型在包含子查询的场景中表现较差,即使基于gpt-4的先进模型性能表现也一般。

3、深入分析发现,上述问题的根本原因主要体现在以下几个方面:首先是模式泛化能力不足,sft模型对训练数据中未出现的表结构或关联关系缺乏灵活推理能力,不容易动态适应新出现的数据库;其次是组合性推理缺失,复杂查询本文档来自技高网...

【技术保护点】

1.一种基于思考推理的NL2SQL方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于思考推理的NL2SQL方法,其特征在于,所述表字段召回的具体步骤包括:

3.根据权利要求1所述的一种基于思考推理的NL2SQL方法,其特征在于,所述表字段筛选的强化学习训练采用基于雅卡尔相似度构建的奖励函数,将筛选出的表与字段在名称上进行拼接构成预测结果集与标准结果集,计算两个集合间的雅卡尔相似度作为奖励函数的输出,所述雅卡尔相似度的计算公式为预测结果集与标准结果集的交集大小除以预测结果集与标准结果集的并集大小。

4.根据权利要求1所述的一种基于思考推理...

【技术特征摘要】

1.一种基于思考推理的nl2sql方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述表字段召回的具体步骤包括:

3.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述表字段筛选的强化学习训练采用基于雅卡尔相似度构建的奖励函数,将筛选出的表与字段在名称上进行拼接构成预测结果集与标准结果集,计算两个集合间的雅卡尔相似度作为奖励函数的输出,所述雅卡尔相似度的计算公式为预测结果集与标准结果集的交集大小除以预测结果集与标准结果集的并集大小。

4.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述结构化查询语言生成的强化学习训练的奖励函数包括输出字段校验与输出内容校验,其中,所述输出字段校验要求生成结构化查询语言在进行抽象语法树解析后,其输出字段与标准结构化查询语言输出字段一致;所述输出内容校验在输出字段一致基础上,将查询执行结果的每一行转为字符串并计算md5值,以校验内容是否与标准结构化查询语言等价。

5.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述值检索包括以下步骤:

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:陈凡黄思颖王飞徐勇军
申请(专利权)人:中科厦门数据智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1