一种表格数据分析领域大模型的训练和评估方法技术

技术编号:44267066 阅读:15 留言:0更新日期:2025-02-14 22:09
本发明专利技术公开了一种表格数据分析领域大模型的训练和评估方法。对获取的表格、文本数据进行筛选打分;编制多套不同提示词,制作表格数据场景下的“问题”数据以及“问题‑回答”数据对作为基础的训练样本;对生成的“问题”和“问题‑回答”样本对进行数据增强;收集并筛选普通的文本问答、逻辑数学以及代码生成任务数据,选择合适的数据配比,对基底模型进行全参数指令对齐训练;收集、制作评估数据集,编写评估脚本,运行获得对应评价指标;根据评价指标以及评估集合的反馈,迭代优化训练数据集,直到模型达到预期指标为止。本发明专利技术能够使得训练得到的表格数据分析领域大模型不仅具有很强的表格问答能力,还具备较强的通用问题解决能力。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体是一种表格数据分析领域大模型的训练和评估方法


技术介绍

1、二维结构化表格数据是日常生产生活中最常见的数据形式,对表格数据进行查询、计算、可视化和预测分析等功能具有较为普遍的需求。随着gpt/llama等典型自编码生成式大模型技术的发展,使用该项技术解决二维表数据自动化分析任务的相关研究也逐步深入。

2、tablellama(2023)使用列类型标注、关系抽取、实体、行聚类、单元格问答、异形表问答、表格事实验证等几种常用表格任务数据,在llama2-7b基础上进行了监督指令微调训练(superwised-finetuning 后面统称为sft),在对应任务测试数据集上,获得超过gpt4的测评指标;tablellm(2024)采用llama2-7b和llama2-13b为基础模型,研究了大语言模型(large language model,后统称为llm)在实际办公场景通用二维表格上的推理生成能力,并开源发布了模型的基准测评脚本代码;tablebench(2024)深入研究了表格数据在工业场景中的应用,设计并提出了包本文档来自技高网...

【技术保护点】

1.一种表格数据分析领域大模型的训练和评估方法,其特征在于该方法包括以下步骤:

2.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤二中所述表格处理和筛选规则包括以下几项:

3.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤三中所述角色扮演是指在提示词中,为生成模型注入行业角色信息。

4.根据权利要求3所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:每次QA样本对时,对同一组问题生成优质和劣质两组回答。

5.根据权利要求1所述的一种表格数据分析领域大模型的训练和...

【技术特征摘要】

1.一种表格数据分析领域大模型的训练和评估方法,其特征在于该方法包括以下步骤:

2.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤二中所述表格处理和筛选规则包括以下几项:

3.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤三中所述角色扮演是指在提示词中,为生成模型注入行业角色信息。

4.根据权利要求3所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:每次qa样本对时,对同一组问题生成优质和劣质两组回答。

5.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤四中所述规则匹配指的是采用正则表达式匹配的方式,同步修改样本中输入到模型中的上下文以及输出的内容。

...

【专利技术属性】
技术研发人员:陈刚赵俊博查良瑜伍赛王皓波
申请(专利权)人:浙江大学计算机创新技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1