数据转化方法、数据转化系统、电子设备及可读存储介质技术方案

技术编号:38743795 阅读:17 留言:0更新日期:2023-09-08 23:26
本发明专利技术提供一种数据转化方法、数据转化系统、电子设备及可读存储介质,包括:获取用户查询问题;选取所述用户查询问题中的关键词;针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量的向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。本发明专利技术能够结合大语言模型和向量检索技术,提高数据转化的准确性和效率。确性和效率。确性和效率。

【技术实现步骤摘要】
数据转化方法、数据转化系统、电子设备及可读存储介质


[0001]本专利技术涉及数据库技术,具体涉及一种数据转化方法、数据转化系统、电子设备及可读存储介质。

技术介绍

[0002]自然语言被公认为是许多领域的最佳交互方式。至今仍不存在一个通用模型能连接自然语言和任意领域。如果能通过自然语言链接关系型数据库,则用户无论是否精通SQL查询语言,都将能够简化大量现有工作。随着深度学习技术的兴起,开始涌现大量研究自然语言连接关系型数据库的工作。
[0003]SQL语言是当前使用的关系数据库的主要查询语言。自然语言到SQL的映射可视为语义解析问题(Andreas, Vlachos et al., 2013)。语义解析是长期存在且在自然语言处理(NLP)中被广泛研究的问题。因此,它引起了学术界和业界的广泛关注,特别是将自然语言转换为SQL查询。当今时代,从金融、电子商务到医疗领域,大量数据都存储在关系型数据库中。在数据库查询过程中,用户通常使用自然语言提出查询请求。然而,将自然语言直接转换为可执行的SQL查询是一个具有挑战性的任务。
[0004]Text2SQL就是将人类语言(如英语)的查询转化为数据库查询语言(SQL)。传统的Text2SQL方法通过单词问答在处理复杂或语义模糊的查询时存在限制,导致无法准确转换成正确的SQL查询语句。因此,需要一种新的方法和系统来提高Text2SQL的准确性和效率。

技术实现思路

[0005]本专利技术的目的在于提供一种使用大语言模型的数据转化方法、数据转化系统、电子设备及可读存储介质,结合大语言模型和向量检索技术,提高数据转化的准确性和效率,能够有效应用于Text2SQL场景。
[0006]为实现上述目的,本专利技术提供一种数据转化方法,包括以下步骤:获取用户查询问题;选取所述用户查询问题中的关键词;针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。
[0007]可选的,所述使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:将所有所述候选数据按第三预设数量划分为若干个数据组;使用大语言模型,针对每一个所述数据组,选取该数据组中第四预设数量的所述精选数据;将每一个所述数据组中的所述精选数据汇总,获得所述第二预设数量的所述精选数据。
[0008]可选的,所述候选数据和\或所述精选数据的数据形式包括字符串格式的表格。
[0009]可选的,使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:循环步骤:使用大语言模型,在所述候选数据中选取出中间数据,将所述中间数据作为更新的所述候选数据;将所述循环步骤循环执行预设次数,直至所述更新的所述候选数据数量达到所述第二预设数量,以此时的所述更新的所述候选数据作为所述精选数据。
[0010]可选的,所述根据所述精选数据,生成所述输出结果,具体包括:使用大语言模型,根据所述精选数据,生成对应所述查询问题的SQL语句。
[0011]可选的,所述根据所述精选数据,生成所述输出结果,具体包括:使用大语言模型,根据预设的提示词指令,生成所述输出结果。
[0012]可选的,在每次使用大语言模型之前,将该次大语言模型使用前的所有步骤内容作为对话历史,输入给所述大语言模型。
[0013]为实现上述目的,本专利技术还提供一种数据转化系统,应用于上述任一所述的数据转化方法,包括:获取模块,用于获取所述用户查询问题;选取模块,用于选取所述查询问题中的所述关键词;处理模块,用于执行以下步骤中的至少一者:针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。
[0014]为实现上述目的,本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储有计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行上述任一项所述的数据转化方法;显示器,与所述处理器和所述存储器通信相连,用于显示与所述数据转化方法相关GUI交互界面。
[0015]为实现上述目的,本专利技术还提供一种可读存储介质,存储有计算机程序,其特征在于:该计算机程序被处理器执行时实现上述任一项所述的数据转化方法。
[0016]本专利技术提供的使用大语言模型的数据转化方法、数据转化系统、电子设备及可读存储介质具有如下有益效果:本专利技术提供的数据转化方法,包括以下步骤:获取用户查询问题;选取所述用户查询问题中的关键词;针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量的向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。
[0017]本专利技术在使用时,用户只需要使用普通的语言习惯输入查询问题,便可获得对应需求格式的输出结果,例如Text2SQL的场景。由于普通的语言遣词造句中关键词的组合会较为复杂,本专利技术可先根据预设算法提取出查询问题中的关键词,再将每个关键词单独进行向量检索,基于词向量的原理,检索出与关键词相近的字段,再将这些字段经大语言模型进行筛选。此时被筛选出的字段在数据库中可能仍然对应大量数据(例如每个字段会对应
大量字符串格式的表格,而这些表格中大部分其实与查询问题无关),此时再进一步使用大语言模型筛选出与查询问题相关的表格,最终获取对应所述查询问题的精选数据并将其高效准确地转化成SQL语句。如此设置,本专利技术将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率,尤其是Text2SQL的准确性和效率。
[0018]由于本专利技术提供的数据转化系统与所述数据转化方法属于同一个专利技术构思,因此所述数据转化系统能够将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率。
[0019]由于本专利技术提供的电子设备与所述数据转化方法属于同一个专利技术构思,因此所述数据转化系统能够将数据转化的任务进行拆解,结合大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据转化方法,其特征在于,包括以下步骤:获取用户查询问题;选取所述用户查询问题中的关键词;针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量的向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。2.如权利要求1所述的数据转化方法,其特征在于,所述使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:将所有所述候选数据按第三预设数量划分为若干个数据组;使用大语言模型,针对每一个所述数据组,选取该数据组中第四预设数量的所述精选数据;将每一个所述数据组中的所述精选数据汇总,获得所述第二预设数量的所述精选数据。3.如权利要求1所述的数据转化方法,其特征在于,所述候选数据和或所述精选数据的数据形式包括字符串格式的表格。4.如权利要求1所述的数据转化方法,其特征在于,所述使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:循环步骤:使用大语言模型,在所述候选数据中选取出中间数据,将所述中间数据作为更新的所述候选数据;将所述循环步骤循环执行预设次数,直至所述更新的所述候选数据数量达到所述第二预设数量,以此时的所述更新的所述候选数据作为所述精选数据。5.如权利要求1所述的数据转化方法,其特征在于,所述根据所述精选数据,生成所述输出结果,具体包括:使用大语言模型,...

【专利技术属性】
技术研发人员:吕桓雪李昊阳李剑楠苏鹏黄炎陈书俊
申请(专利权)人:上海爱可生信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1