System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于自然语言的多表格数据查询和预测方法技术_技高网

一种基于自然语言的多表格数据查询和预测方法技术

技术编号:40708230 阅读:5 留言:0更新日期:2024-03-22 11:08
本发明专利技术公开了一种基于自然语言的多表格数据查询和预测方法。基于已有的业务数据库和具体的业务场景,收集常见的业务问题;在此基础上分别构建表格抽取数据集、业务知识数据集和查询分析数据集;选择表格抽取模型和查询分析指令生成模型,采用全参数微调的方式进行训练;在生产环境中部署模型,并根据实际功能需求差异,适配开发对应的指令翻译、矫正和执行模块;最后,通过WEB前端页面对模型发送数据查询、分析请求。本发明专利技术能够实现使用自然语言在多表格、多字段的复杂业务数仓环境中进行精确的数据提取查询、可视化分析和数据预测,让业务人员能够跨越SQL、Python等结构化数据提取分析语言的使用门槛,进行交互式的数据查询和分析。

【技术实现步骤摘要】

本专利技术涉及了大数据和人工智能领域中的一种低代码自动化的数据查询分析方法,具体涉及了一种基于自然语言的多表格数据查询、可视化和预测方法。


技术介绍

1、数据驱动时代,数据查询和预测分析在日常生活中的普遍性和重要性不可忽视。无论是金融、营销、医疗还是教育等多个领域,数据分析成为决策支持的核心工具,深入影响着专业人士的工作方式和业务运营的效率。然而随着公司、业务规模的扩张,数据分析流程日益复杂化,另外不同部门和层级对于数据需求、数据归属、数据分析语言掌握程度存在差异,导致公司体系内数据查询分析过程冗长,效率低下。

2、为解决以上问题,近来开展了大量低代码商务智能bi应用设计相关的研究工作,如陶宏等人研究了power bi软件在国家采集药品使用数据分析和管理方面的使用(2022),朱晓伟等人对勘察设计企业bi软件的应用进行了尝试(2023)。另外随着生成式大语言模型(llm)技术的发展,通过自然语言生成sql语句(nl2sql)来处理表格数据进行数据分析成为可能,在最新的spider-sql竞赛榜单中,阿里巴巴团队(gao and wang,2023)使用dail-sql+gpt-4方案,通过知识注入、多路生成召回等方式,在3-5张表格场景下获得了86.6%准确率的成绩。

3、然而,对于传统低代码bi工具来说存在软件学习时间成本较高、无法跨越数据口径障碍的问题,在数据分析查询过程中,依然避免不了跨部门、层级、人员的沟通协调,效率提升有限。另外,目前对于基于生成式大语言模型llm的生成sql的技术(nl2sql)在公司实际业务数分使用,则存在:1)多表格数据场景下,表格数量太多造成输入的上下文长度(context-length)过长,容易发生内容遗忘,影响生成结果的准确率;2)直接生成sql语句的可控性较差,一旦出现生成错误,结果矫正困难;3)受限于sql语句的功能,nl2sql强于查询,但对于可视化和预测分析等功能,支持有限,难以满足实际使用的需求。


技术实现思路

1、本专利技术的目的在于针对目前数据智能分析查询领域存在的上述不足,本专利技术设计了一套基于纯自然语言对话交互,采用多个模型级联来完成表格抽取、合并,并最终实现查询、分析、预测展示等功能的方法。另外针对生成式大语言模型(llm)生成sql语句可控性差,分析功能覆盖不完善的问题,专门设计一套能够覆盖大部分sql查询需求,同时能够进行可视化和预测分析的领域限定语言(domain-specific language,dsl)。

2、为了解决上述现有技术的不足之处,本专利技术提供了以下技术方案:

3、一、一种基于自然语言的多表格数据查询和预测方法

4、步骤一:根据实际业务需求确认对接的数据仓库、数据表格,接着获取不同数据仓库之间的基本区分信息以及不同数据表格之间的基本区分信息,并记为数据来源信息;

5、步骤二:从当前对接的数据仓库中收集用户问题和请求,从而形成种子问题以及业务名词解释;

6、步骤三:基于当前对接的数据仓库、数据表格、数据来源信息、种子问题和业务名词解释,分别构建表格抽取数据集、业务知识数据集和查询分析数据集;

7、步骤四:分别对表格抽取数据集、业务知识数据集、查询分析数据集进行数据增强和数据清洗操作后,分别获得预处理后的表格抽取数据集、业务知识数据集、查询分析数据集;

8、步骤五:使用预处理后的表格抽取数据集训练表格抽取模型,获得训练好的表格抽取模型;以及使用业务知识数据集和查询分析数据集训练查询分析指令生成模型,获得训练好的查询分析指令生成模型;

9、步骤六:将训练好的表格抽取模型和查询分析指令生成模型级联部署后,获得多表格查询指令生成模型;将发送的用户请求文本输入到多表格查询指令生成模型中,获得最终的查询-分析结果。

10、所述查询分析数据集包括在用户问题以及对应涉及或可能涉及的表格定义语句的基础上,输出查询分析对应领域限定语言的数据。

11、所述步骤五中的表格选取模型,其模型基座采用roberta-chinese-wwm,模型训练时采用双塔式结构。

12、所述步骤五中的查询分析指令生成模型,其基底模型为大语言生成模型wizardlm,采用全参数微调的方法对模型进行微调训练。

13、所述步骤六中,对训练好的表格抽取模型的输出前处理后再与训练好的表格抽取模型的输入一起作为训练好的查询分析指令生成模型的输入。

14、二、一种计算机设备

15、所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述方法的步骤。

16、三、一种计算机可读存储介质

17、计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的方法的步骤。

18、本专利技术的有益效果是:

19、本专利技术方法设计了一套以自然语言作为输入,中间过程完全排除其他人工协助、干预,使用者无需任何python/sql等常用数据分析工具语言基础知识,直接获得数据查询、分析结果的流程框架。能够极大地降低业务数据分析、查询的技术门槛,减少中间跨部门、人员口径确认等沟通成本,提升数据分析、查询效率。

20、本专利技术采用表格选取模型和查询分析指令生成模型级联的模式,通过选取模型精确选表,极大减少了查询分析指令生成模型的输入上下文长度,使得自然语言驱动的数据分析技术(如nl2sql)能够更好地适配真实的多表格、多字段生产环境,同时提升指令(代码)生成的准确度。

21、本专利技术针对数据查询语言sql无法进行可视化分析、模型训练、预测等数据分析领域常用功能,以及直接生成sql可控性较差、生成错误时矫正困难的问题,设计了一套能够覆盖sql查询、可视化以及训练、预测功能的领域限定语言(domain-specific language)。这套dsl指令集,采用key:value对模式输出,生成后能快速矫正且易读易懂。并能够通过输出多步指令列表的方式,完成复杂多步查询任务。另外需要强调和补充的是,针对对接的不同生产环境,还能灵活增加、定义该套dsl指令集内容,集成生产环境已有工具、组件。

本文档来自技高网...

【技术保护点】

1.一种基于自然语言的多表格数据查询和预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于自然语言的多表格数据查询和预测方法,其特征在于,所述查询分析数据集包括在用户问题以及对应涉及或可能涉及的表格定义语句的基础上,输出查询分析对应领域限定语言的数据。

3.根据权利要求1所述的一种基于自然语言的多表格数据查询和预测方法,其特征在于,所述步骤五中的表格选取模型,其模型基座采用RoBERTa-Chinese-WWM,模型训练时采用双塔式结构。

4.根据权利要求1所述的一种基于自然语言的多表格数据查询和预测方法,其特征在于,所述步骤五中的查询分析指令生成模型,其基底模型为大语言生成模型WizardLM,采用全参数微调的方法对模型进行微调训练。

5.根据权利要求1所述的一种基于自然语言的多表格数据查询和预测方法,其特征在于,所述步骤六中,对训练好的表格抽取模型的输出前处理后再与训练好的表格抽取模型的输入一起作为训练好的查询分析指令生成模型的输入。

6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于自然语言的多表格数据查询和预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于自然语言的多表格数据查询和预测方法,其特征在于,所述查询分析数据集包括在用户问题以及对应涉及或可能涉及的表格定义语句的基础上,输出查询分析对应领域限定语言的数据。

3.根据权利要求1所述的一种基于自然语言的多表格数据查询和预测方法,其特征在于,所述步骤五中的表格选取模型,其模型基座采用roberta-chinese-wwm,模型训练时采用双塔式结构。

4.根据权利要求1所述的一种基于自然语言的多表格数据查询和预测方法,其特征在于,所述步骤五中的查询分析指令生成模型,其...

【专利技术属性】
技术研发人员:查良瑜苏常保黄清仪杨赛赛袁静
申请(专利权)人:浙江大学计算机创新技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1