用于多表格问答中增强的自然语言到SQL生成的系统和方法技术方案

技术编号:44933304 阅读:27 留言:0更新日期:2025-04-08 19:15
实施方案提供了用于使用NL2SQL来执行查询的方法。所述方法包括:接收与存储在数据库的至少一个表格中的信息相关联的自然语言问题;基于所述自然语言问题生成提示,所述提示包括使大语言模型(LLM)执行关键词提取和任务分解过程的指令;使用所述指令经由所述LLM执行所述关键词提取和任务分解过程以产生一组关键词和任务分解数据;基于所述一组关键词从所述至少一个表格中检索一组实体;基于所述一组实体、所述任务分解数据和所述问题生成第二提示;基于所述第二提示经由所述LLM生成查询语句;以及针对所述至少一个表格执行所述查询语句以从所述至少一个表格获得所述问题的所述答案。

【技术实现步骤摘要】

本公开涉及表格问答(表格qa)系统和方法,并且更具体地,涉及用于执行表格qa的改进的方法和计算架构。


技术介绍

1、表格问答(表格qa)是一项通过问答帮助不精通编码技能或高级电子表格软件的用户检索复杂表格数据的任务。执行表格qa的一种方法是自然语言到sql(nl2sql),它是一种将来自用户的自然语言查询转译成结构化查询语言(sql)命令的过程,这些sql命令可用于从一个或多个数据源诸如数据库或表格中提取数据。nl2sql允许用户基于以日常语言(即,自然语言)编写的问题来与数据库交互,而不要求用户具备sql知识。

2、最近的研究表明,利用大语言模型(llm)的nl2sql方法显著优于其他基于规则或基于神经网络的方法。一种直接方法可涉及向llm(例如,openai的gpt-4o)提交提示以执行相关任务。然而,该方法经常导致sql语句出现逻辑错误、字段识别不准确。该方法在管理多表格关系时也存在困难。已经假设这些问题是由于表格qa场景中llm对用户问题的理解不充分而引起的。

3、本领域的先前工作(诸如zhu等人的tat-qa、chen等人本文档来自技高网...

【技术保护点】

1.一种用于使用自然语言到结构化查询语言(NL2SQL)来执行查询的系统,所述系统包括:

2.根据权利要求1所述的系统,其中基于包括多个问题和查询语句对的数据集来微调所述LLM,每个问题和查询语句对包括样本自然语言问题和与所述样本自然语言问题相对应的基准真值查询语句。

3.根据权利要求1所述的系统,其中所述一个或多个处理器被配置为:

4.根据权利要求3所述的系统,其中所述一个或多个处理器被配置为:

5.根据权利要求4所述的系统,其中迭代地执行所述修正过程直到达到停止标准为止。

6.根据权利要求1所述的系统,其中所述任务分解过程被...

【技术特征摘要】

1.一种用于使用自然语言到结构化查询语言(nl2sql)来执行查询的系统,所述系统包括:

2.根据权利要求1所述的系统,其中基于包括多个问题和查询语句对的数据集来微调所述llm,每个问题和查询语句对包括样本自然语言问题和与所述样本自然语言问题相对应的基准真值查询语句。

3.根据权利要求1所述的系统,其中所述一个或多个处理器被配置为:

4.根据权利要求3所述的系统,其中所述一个或多个处理器被配置为:

5.根据权利要求4所述的系统,其中迭代地执行所述修正过程直到达到停止标准为止。

6.根据权利要求1所述的系统,其中所述任务分解过程被配置为确定主任务和用于实现所述主任务的一个或多个子任务。

7.根据权利要求6所述的系统,其中所述第二指令包括一个或多个示例,并且其中所述一个或多个示例中的每个示例包括自然语言问题、从所述自然语言问题导出的主任务和用于实现从所述自然语言问题导出的所述主任务的一个或多个子任务。

8.根据权利要求1所述的系统,其中所述一组关键词包括对象关键词和实施关键词。

9.根据权利要求1所述的系统,其中所述第二提示的所述第三指令包括与所述一组实体、所述数据库的所述至少一个表格的数据模式、所述问题和所述任务分解数据相关联的信息。

10.根据权利要求1所述的系统,其中所述一个或多个处理器被配置为:

11.根据权利要求10所述的系统,其中至少部分地基于一组初始实体的排名来确定所述一组实体。

12....

【专利技术属性】
技术研发人员:陈坚罗竞锋譚獻忠柯昕玫房晗L·W·李伍廸儀张凌朱兵J·索A·K·H·王刘永政叶俊鹏袁子轩加文·斯科特·朗斯代尔
申请(专利权)人:汇丰软件开发广东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1