一种面向大模型表格问答方法技术

技术编号：41209271 阅读：3 留言：0更新日期：2024-05-09 23:31

本发明专利技术公开了一种面向大模型表格问答方法，涉及机器学习技术领域，包括以下步骤：采集表格数据，根据设定的语料生成模板和语料生成规则自动化生成文本语料；根据所述文本语料，基于提示学习和微调技术对大模型进行偏好性学习，获得问答模型；采集问答任务表格和问题，采用改进RCI方法对所述问答任务表格和所述问题进行处理，获得表格序列数据和问题类型，根据所述表格序列数据和所述问题类型利用所述问答模型获得问答答案。通过模板设计和规则制定自动化生成语料，训练更优的大模型，基于行列结合的表格序列化语义分析和大模型提升表格问答准确性和问答效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，更具体的说是涉及一种面向大模型表格问答方法。

技术介绍

1、表格数据作为一种结构化、知识密度大的数据存储方式，广泛应用于商业、教育、医疗、军事等各领域中。经过大量无监督语料训练的大语言模型在通用任务表现上已经取得显著进展，但是在表格问答应用上仍然存在挑战，主要包括复杂问题推理能力不足、表格结构语义理解偏差、以及用户偏好性学习成本高等方面。大语言模型基于深度学习技术的快速发展和模型架构的改进提升，通过在大规模无监督的语料上进行训练，学习理解和处理自然语言的能力，在诸如文本生成、情感分析等多种自然语言处理任务中都取得了优异表现。表格问答作为大语言模型发展的重要应用之一，可以辅助用户快速获取所需信息，加快数据管理和处理速度，为各行业决策分析提供更全面的支持。在如何利用尽可能少的资源提高大模型特定任务表现方面，目前采用最多的是提示学习和微调技术。

2、目前，提示学习技术主要有人工设计模板、自动生成离散模板和连续性模板等，主流对大模型进行微调方法有三种：freeze方法、p-tuning方法和lora方法。基于大语言模型的表格问答在实际应用存在以下几个难点：一、大模型在正确理解表格数据时面临挑战，包括对表格中数据关系的理解以及对实体及属性的准确识别等；二、大模型表格问答在应用时难以生成符合实际需求和用户偏好的答案，需要考虑如何在有限的数据资源、硬件资源等条件下尽可能提升大模型表格问答效果。

3、因此，如何在有限资源条件下提升表格问答的准确性和问答效果是本领域技术人员亟需解决的问题。

<br/>

技术实现思路

1、有鉴于此，本专利技术提供了一种面向大模型表格问答方法，针对大模型正确理解表格语义问题提出了基于模板设计和规则制定的自动化语料生成方案，所得语料可用于构建表格问答知识库和进行大模型微调，基于提示学习和lora微调等前沿技术设计实现在较少资源下大模型特定任务的数据驱动，基于行列结合的表格序列化语义分析和问题分类提升大模型表格问答能力。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种面向大模型表格问答方法，包括以下步骤：

4、步骤1：采集表格数据，根据设定的语料生成模板和语料生成规则自动化生成文本语料；

5、步骤2：根据所述文本语料，基于提示学习和微调技术对语言大模型进行偏好性学习，获得问答模型；

6、步骤3：采集问答任务表格和问题，采用改进rci方法对所述问答任务表格和所述问题进行处理，获得表格序列数据和问题类型，根据所述表格序列数据和所述问题类型利用所述问答模型获得问答答案。

7、上述技术方案的技术效果为，基于模板设计和规则制定的自动化语料生成方案，所得语料可用于构建表格问答知识库和进行大模型微调，基于提示学习和微调技术设计实现在较少资源下大模型特定任务的数据驱动，基于改进rci方法，实现行列结合的表格序列化语义分析和问题分类，提升大模型表格问答能力。

8、优选的，步骤1的实现过程为：

9、步骤11：采集表格数据，并进行解析和处理，获得列表表格；

10、步骤12：根据不同问答任务设定若干语料生成模板，并置于配置文件中；

11、步骤13：根据所述表格数据的特点和结构设定语料生成规则，并置于配置文件中；

12、步骤14：将所述列表表格根据所述语料生成规则填充到所述语料生成模板中，生成文本语料。

13、优选的，所述语料生成模板确定语料结构和语料格式，还包括占位符，根据表格数据替换所述占位符。

14、优选的，所述语料生成规则包括数据类型转换、值映射和文本处理等操作；所述值映射包括采用字典映射方法将数字键映射为对应的字符串值。

15、优选的，步骤2的实现过程为：

16、步骤21：根据所述文本语料采用word2vec模型生成向量知识库，与问答任务的问题文本向量进行相似度匹配计算，根据最大相似度得到问答任务最相关的语料片段；

17、步骤22：根据所述表格数据和所述文本语料，生成大模型训练数据集；

18、步骤23：将所述语料片段作为prompt，采用p-tuningv2的自动化promptv2方法，根据所述大模型训练数据集对所述语言大模型进行偏好性学习训练，优化可训练的连续prompt，获得最佳提示向量；

19、采用人工设计方法或采用p-tuningv2的自动化promptv2方法根据语料片段生成最佳提示向量；其中，

20、人工设计方法是根据所述语料片段和需求生成最佳提示向量；

21、自动化promptv2方法是将所述语料片段作为prompt，采用p-tuningv2的自动化promptv2方法，根据所述大模型训练数据集对语言大模型进行偏好性学习训练，优化可训练的离散型prompt和连续prompt，得到最佳prompt提示向量；

22、步骤24：根据所述最佳提示向量中的连续prompt通过lora微调方法对训练后的所述语言大模型的参数进行微调，获得问答模型。

23、上述技术方案的技术效果为，通过添加提示和对模型进行高效的lora微调后，大模型无需对不同任务场景下的表格问答进行全参数调优，而是以调整大模型本征维度和让大模型适应任务的方式实现有限资源条件下模型表现的快速提升，同时能够在实际应用场景中提供更加智能和个性化的表格信息，辅助用户决策。

24、优选的，所述大模型训练数据集包括表格数据类型、表格数据和文本语料。分别作为大模型训练中表格类型type、输入tnput和输出output三个字段。

25、优选的，所述改进rci方法包新序列处理和分类预测，所述步骤3的具体实现过程为：

26、步骤31：采用新序列处理公式对所述问答任务表格进行序列化处理，获得表格序列数据，将表格序列数据附加到带有标准cls和sep令牌的问题中，组成表格数据-问题序列对；

27、步骤32：将表格数据-问题序列对输入transformer编码器albert中；在编码器albert的线性层中使用cls令牌的输出分别作为问题和表格序列数据中第j列序列的向量表示，将问题向量、表格序列列向量以及二者对应的元素积、元素差的平方连接起来，利用softmax函数计算所述表格序列列向量属于问题目标的概率；

28、步骤33：根据设定置信度阈值和所述概率从所述表格序列数据中选取答案候选行；

29、步骤34：分类预测过程中所述问题向量经过基于transformer的分类器处理，获得所述问题类型；

30、步骤35：将所述答案候选行和所述问题类型组合成输入提示，输入所述问答模型，获得问答答案。

31、优选的，所述新序列处理公式表示为：；

32、；

33、其中，t表示表格序列数据；表示表格序列数据的第i行数据序列；表示在表头字符串后添加冒号符号(':')；示在单元格值字符本文档来自技高网...

【技术保护点】

1.一种面向大模型表格问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向大模型表格问答方法，其特征在于，所述步骤1的实现过程为：

3.根据权利要求1所述的一种面向大模型表格问答方法，其特征在于，所述语料生成模板设置语料结构、语料格式和占位符，根据表格数据替换所述占位符。

4.根据权利要求1所述的一种面向大模型表格问答方法，其特征在于，所述语料生成规则包括数据类型转换、值映射和文本处理；所述值映射包括采用字典映射方法将数字键映射为对应的字符串值。

5.根据权利要求1所述的一种面向大模型表格问答方法，其特征在于，所述步骤2的实现过程为：

6.根据权利要求5所述的一种面向大模型表格问答方法，其特征在于，所述大模型训练数据集包括表格数据类型、表格数据和文本语料。

7.根据权利要求1所述的一种面向大模型表格问答方法，其特征在于，所述改进RCI方法包新序列处理和分类预测，所述步骤3的具体实现过程为：

8.根据权利要求7所述的一种面向大模型表格问答方法，其特征在于，所述新序列处理公式表示为：；

...

【技术特征摘要】

1.一种面向大模型表格问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向大模型表格问答方法，其特征在于，所述步骤1的实现过程为：

4.根据权利要求1所述的一种面向大模型表格问答方法，其特征在于，所述语料生成规则包括数据类型转换、值映射和文本处理；所述值映射包括采用字典映射方法将数字键映射为对应的字符...

【专利技术属性】
技术研发人员：郝韫宏，唐海超，李孟书，王立才，胡勋，罗琪彬，宋浩楠，乔思龙，曹杨，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人