【技术实现步骤摘要】
本专利技术涉及文本生成,更具体地说,本专利技术涉及一种基于思考推理的nl2sql方法及系统。
技术介绍
1、自然语言到sql(nl2sql)技术作为连接人类语言与数据库操作的桥梁,旨在将非结构化查询转化为精确的结构化查询语言。随着大语言模型(llms)的崛起,nl2sql技术在简单查询场景中已展现较高准确率,但在复杂查询处理和领域适应性方面仍面临显著挑战。
2、当前主流方法主要依赖于监督微调(supervised fine-tuning,sft)进行模型训练,其核心机制是通过静态样本学习固定的模式映射关系。然而,这种方法在处理涉及多表连接(join)、嵌套子查询、复杂聚合函数等复杂场景时表现明显下降。根据nl2sql360评估框架的分析结果显示,现有模型在包含子查询的场景中表现较差,即使基于gpt-4的先进模型性能表现也一般。
3、深入分析发现,上述问题的根本原因主要体现在以下几个方面:首先是模式泛化能力不足,sft模型对训练数据中未出现的表结构或关联关系缺乏灵活推理能力,不容易动态适应新出现的数据库;其次是组合
...【技术保护点】
1.一种基于思考推理的NL2SQL方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于思考推理的NL2SQL方法,其特征在于,所述表字段召回的具体步骤包括:
3.根据权利要求1所述的一种基于思考推理的NL2SQL方法,其特征在于,所述表字段筛选的强化学习训练采用基于雅卡尔相似度构建的奖励函数,将筛选出的表与字段在名称上进行拼接构成预测结果集与标准结果集,计算两个集合间的雅卡尔相似度作为奖励函数的输出,所述雅卡尔相似度的计算公式为预测结果集与标准结果集的交集大小除以预测结果集与标准结果集的并集大小。
4.根据权利要求1所
...【技术特征摘要】
1.一种基于思考推理的nl2sql方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述表字段召回的具体步骤包括:
3.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述表字段筛选的强化学习训练采用基于雅卡尔相似度构建的奖励函数,将筛选出的表与字段在名称上进行拼接构成预测结果集与标准结果集,计算两个集合间的雅卡尔相似度作为奖励函数的输出,所述雅卡尔相似度的计算公式为预测结果集与标准结果集的交集大小除以预测结果集与标准结果集的并集大小。
4.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述结构化查询语言生成的强化学习训练的奖励函数包括输出字段校验与输出内容校验,其中,所述输出字段校验要求生成结构化查询语言在进行抽象语法树解析后,其输出字段与标准结构化查询语言输出字段一致;所述输出内容校验在输出字段一致基础上,将查询执行结果的每一行转为字符串并计算md5值,以校验内容是否与标准结构化查询语言等价。
5.根据权利要求1所述的一种基于思考推理的nl2sql方法,其特征在于,所述值检索包括以下步骤:
6.根据权利要求1所述的...
【专利技术属性】
技术研发人员:陈凡,黄思颖,王飞,徐勇军,
申请(专利权)人:中科厦门数据智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。