当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于树状模型的复杂自然语言查询转SQL方法技术

技术编号:29043878 阅读:34 留言:0更新日期:2021-06-26 05:54
本发明专利技术公开了一种基于树状模型的复杂自然语言查询转SQL方法,该方法首先针对于输入的数据库进行预筛选,获取与自然语言查询相关的TOP K个表格,将多表查询转化为单表查询,并适配于数据库规模较大从而无法将信息输入到自然语言查询转SQL模型的情况;然后针对于复杂的SQL语句自顶向下地拆解为多叉树形式,每个结点代表一个模块,由此构建了一个树状模型来预测复杂SQL语句各模块的输出;最后针对于SQL语句值抽取的任务,将值抽取从树状模型中分离出来,共享权重来同时抽取SQL中不同子句的值。本发明专利技术的基于树状模型的复杂自然语言查询转SQL方法框架可以解决自然语言查询转SQL任务中的多表复杂查询问题。任务中的多表复杂查询问题。任务中的多表复杂查询问题。

【技术实现步骤摘要】
一种基于树状模型的复杂自然语言查询转SQL方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于树状模型的复杂自然语言查询转SQL技术方法。

技术介绍

[0002]当今世界的大量信息存储在数据库中,然而对这些数据的获取与分析往往需要精通SQL等形式化查询语言,限制了非技术用户的使用.自然语言查询转SQL技术可以有效打通用户和数据库的壁垒。该技术可以理解用户的口语查询和数据库的结构信息,并对此加以融合和解析,生成数据库可理解的SQL语句,进而对数据库执行查询来返回结果,从而实现基于数据库的自动问答能力。
[0003]当前学术界对于自然语言查询转SQL的研究进展迅速,然而已有的工作大多基于英文场景,面向中文领域实际应用时,中文特殊的口语化表达导致复杂SQL转化的正确率大幅下降,也不能解决面向商业智能的计算查询新需求。同时,当前的研究工作忽略了现实中数据库规模较大而无法将信息完全输入到模型的可能性,以及跨领域查询时面对结构变化的新数据库致使模型性能下降的问题。针对以上问题,本文提出了一套基于树状模型的复杂自然语言查询转SQL系本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于树状模型的复杂自然语言查询转SQL方法,其特征在于,包括以下步骤:(1)对于输入的自然语言口语查询进行预处理,所述预处理具体为对输入的自然语言口语查询按数据库存储的记录格式进行时间、日期、数值描述;(2)对于输入的数据库中的所有表格通过筛选模型进行预筛选,得到与口语查询相关度最高的K个表格;(3)对于输入的自然语言查询以及筛选后的表格,通过树状模型去预测复杂SQL语句各组成模块的结果;(4)对于树状模型预测出的SQL结果进行补全,首先识别需要补全条件值的条件列,接着通过值抽取模型分别获取每个条件列对应的条件值;(5)构造出json形式的预测结果,通过SQL解析后处理算法来得到SQL语句的表达形式。2.如权利要求1所述复杂自然语言查询转SQL方法,其特征在于:所述步骤(2)包括以下子步骤:(2.1)输入部分为自然语言查询Q和数据库模式,其中只关注数据库模式中的各数据表格的表名和字段信息,并定义各表格信息T的表示形式为“表名__列名1_列名2
…”
;(2.2)将步骤(2.1)中的Q以及所有的T输入到筛选模型中,得到每个表格T与自然语言Q的相关度分数,并且保存相关度最高的K个表格。3.如权利要求1所述复杂自然语言查询转SQL方法,其特征在于:所述步骤(3)包括以下子步骤:(3.1)对于复杂SQL语句核心的嵌套SQL问题进行划分,将嵌套SQL分为主SQL和副SQL部分,每个SQL层次再分解Select,Where等子句层次,对于每个子句层次进行归纳划分,得到列名,操作符等目标层次,至此形成多叉树并搭建树状模型;(3.2)输入部分为自然语言查询Q和TOP K个数据表格,将各表格进行合并,每个表格中的列名信息c以“表名_列名...

【专利技术属性】
技术研发人员:陈珂陈刚赵猛寿黎但胡天磊
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1