System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于12345数据的垂直领域大模型构建方法及装置制造方法及图纸_技高网

一种基于12345数据的垂直领域大模型构建方法及装置制造方法及图纸

技术编号:41094671 阅读:2 留言:0更新日期:2024-04-25 13:53
本申请公开了一种基于12345数据的垂直领域大模型构建方法及装置,包括如下步骤:基于用户提出的数据查询相关问题判断用户的意图,并生成SQL涉及的实体信息和时间信息;基于大语言模型(LLM)以及预先构建的知识库,并根据生成的SQL涉及的实体信息和时间信息生成符合自然语言的SQL语句;对生成的SQL语句,进行校验;基于校验后的SQL语句,执行SQL查询,并呈现查询结果。本申请的方法大大提高了对用户需求的语义理解能力,实现对复杂多样问题的精确理解并给出对应的答案。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种基于12345数据的垂直领域大模型构建方法及装置


技术介绍

1、基于市民政务服务热线过多,为方便市民记忆,在全国各地均采取了将服务热线合并统一接入12345,再通过12345热线中心根据具体情况需要进行转接而形成的热线。12345市民服务热线是一条非紧急类政务服务热线,用来帮助诉求人解决生活、生产中所遇困难和问题,是政府关注民生、倾听民意的平台。

2、随着时代的发展,市民对于公共服务的满意度要求不断提升,市民的咨询、建议、投诉和举报的数量飞速增加,传统的单纯依靠人工对这一庞大的数据进行处理,正逐渐凸显出力不从心的问题。

3、12345数据往往是以数据库表的方式进行储存,对其进行搜索查找时通常需要sql语句。专利“sql语句构建方法、装置、服务器及可读存储介质”公布了一种sql构造方法,通过解析获取到的配置文件,获得配置文件中的目标源数据,进一步的获取目标源数据中包含的变量以及变量表达式,并基于获取到的变量及变量表达式构建映射变量层级树,生成与映射变量层级树对应的sql语句。此方法较为繁琐,且不具备文本转sql能力,局限性较大。

4、专利“智能问答系统构建方法、问答处理方法及装置”公布了一种智能问答系统构建方法,获取不同来源的常用问答对faq资源数据,以构建常用问答对faq知识库;基于语义索引、倒排索引和问题轻量化匹配模型,构建faq智能问答系统。此方法为常识领域问答系统。

5、现有的方案存在如下问题:

6、一、缺乏对12345领域数据的应用:现有的问答系统缺乏对12345这一特定领域数的应用。用户无法通过系统对这一庞大体量数据进行快速处理,需要花费大量时间去进行查询统计,费时又费力。

7、二、语境、语义理解困难:现有的nl2sql技术难以理解复杂语境、歧义和隐含信息,对于用户的需求可能会产生错误的答案或需要额外的人工干预来理解特定的问题。

8、三、缺乏对话能力:基于数据查询的系统通常交互性有限,不能进行深入的交互或维持长时间的对话。这在应用中是不够的,因为用户可能需要多轮对话来澄清问题或获取更多信息。


技术实现思路

1、本申请实施例提供一种基于12345数据的垂直领域大模型构建方法及装置,结合多种技术,大大提高对用户需求的语义理解能力,实现对复杂多样问题的精确理解并给出对应的答案。

2、本申请实施例提供一种基于12345数据的垂直领域大模型构建方法,包括如下步骤:

3、获取用户提出的数据查询相关问题,并基于所述相关问题判断用户的意图,并生成sql涉及的实体信息和时间信息,其中所述实体信息是与领域业务紧密相关的数据元素,所述时间信息是基于所述相关问题确定出的标准格式时间;

4、基于大语言模型(llm)以及预先构建的知识库,并根据生成的sql涉及的实体信息和时间信息生成符合自然语言的sql语句;

5、对生成的sql语句,进行校验;

6、基于校验后的sql语句,执行sql查询,并呈现查询结果。

7、可选的,基于所述相关问题判断用户的意图,并生成sql涉及的实体信息和时间信息还包括:

8、根据所述相关问题,进行意图分析,以判断所述实体信息是否能够满足sql生成的需求;以及

9、从所述相关问题中,提取时间信息并将其规范为数据库的标准格式。

10、可选的,基于llm以及预先构建的知识库,并根据生成的sql涉及的实体信息和时间信息生成符合自然语言的sql语句包括:

11、为所述实体信息标注类型,并根据标注类型判断预期sql涉及的业务库范围;

12、基于判断出的业务库范围,选表,并将选中的业务库的表名和表用途,填充到选表prompt模板;

13、将填充后的选表prompt模板,以及所述相关问题一并输入所述llm,以确定出sql的表范围;

14、将所述相关问题、选表prompt模板以及sql的表范围进行组合填充,以获得选表prompt,并输入所述llm判断sql的必要字段;

15、基于判断的sql的必要字段,构造sql语句。

16、可选的,预先构建知识库包括:

17、对12345数据表中的数据,进行清洗、预计算,以进行数据增强;

18、对多维数据,定期进行数据建模、预计算并持久化到数据库表中;

19、对字段数据,进行分布分析,以确定数据范围。

20、可选的,还包括:

21、采用lora微调方式,利用自建的数据集,对所述llm进行微调;

22、对于所述llm生成的sql语句,以及目标sql语句在领域数据中执行,对比执行结果,以对所述llm生成的sql语句进行效果评估。

23、可选的,对生成的sql语句,进行校验包括:

24、对数据表中的数据进行分析,以对sql中不正确的数据进行修正;

25、静态校验,利用预设工具判断生成的sql语句是否符合标准;

26、动态校验,对经过静态校验的sql语句,利用语义分析器判断sql语句的元素的有效性,以及根据用户的访问权限验证sql语句的合法性。

27、可选的,基于校验后的sql语句,执行sql查询,并呈现查询结果包括:

28、将llm生成的sql在领域数据库中执行,以获得要展示图表的数据;

29、通过llm对所述相关问题的语义提取和数据分析,以确定出展示数据的图表类型;

30、通过llm将数据组装为指定的数据格式,并渲染在页面端。

31、本申请实施例还提出一种基于12345数据的垂直领域大模型构建装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于12345数据的垂直领域大模型构建方法的步骤。

32、本申请实施例结合多种技术,大大提高对用户需求的语义理解能力,实现对复杂多样问题的精确理解并给出对应的答案。

33、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种基于12345数据的垂直领域大模型构建方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于12345数据的垂直领域大模型构建方法,其特征在于,基于所述相关问题判断用户的意图,并生成SQL涉及的实体信息和时间信息还包括:

3.如权利要求1所述的基于12345数据的垂直领域大模型构建方法,其特征在于,基于LLM以及预先构建的知识库,并根据生成的SQL涉及的实体信息和时间信息生成符合自然语言的SQL语句包括:

4.如权利要求3所述的基于12345数据的垂直领域大模型构建方法,其特征在于,预先构建知识库包括:

5.如权利要求4所述的基于12345数据的垂直领域大模型构建方法,其特征在于,还包括:

6.如权利要求1所述的基于12345数据的垂直领域大模型构建方法,其特征在于,对生成的SQL语句,进行校验包括:

7.如权利要求1所述的基于12345数据的垂直领域大模型构建方法,其特征在于,基于校验后的SQL语句,执行SQL查询,并呈现查询结果包括:

8.一种基于12345数据的垂直领域大模型构建装置,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于12345数据的垂直领域大模型构建方法的步骤。

...

【技术特征摘要】

1.一种基于12345数据的垂直领域大模型构建方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于12345数据的垂直领域大模型构建方法,其特征在于,基于所述相关问题判断用户的意图,并生成sql涉及的实体信息和时间信息还包括:

3.如权利要求1所述的基于12345数据的垂直领域大模型构建方法,其特征在于,基于llm以及预先构建的知识库,并根据生成的sql涉及的实体信息和时间信息生成符合自然语言的sql语句包括:

4.如权利要求3所述的基于12345数据的垂直领域大模型构建方法,其特征在于,预先构建知识库包括:

5.如权利要求4...

【专利技术属性】
技术研发人员:王刚亮郭庆浪梁生霖乔子剑薛庆昊张靖雅林晖李慧波
申请(专利权)人:中国电子科技集团有限公司电子科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1