【技术实现步骤摘要】
本专利技术涉及人工智能,具体是一种表格数据分析领域大模型的训练和评估方法。
技术介绍
1、二维结构化表格数据是日常生产生活中最常见的数据形式,对表格数据进行查询、计算、可视化和预测分析等功能具有较为普遍的需求。随着gpt/llama等典型自编码生成式大模型技术的发展,使用该项技术解决二维表数据自动化分析任务的相关研究也逐步深入。
2、tablellama(2023)使用列类型标注、关系抽取、实体、行聚类、单元格问答、异形表问答、表格事实验证等几种常用表格任务数据,在llama2-7b基础上进行了监督指令微调训练(superwised-finetuning 后面统称为sft),在对应任务测试数据集上,获得超过gpt4的测评指标;tablellm(2024)采用llama2-7b和llama2-13b为基础模型,研究了大语言模型(large language model,后统称为llm)在实际办公场景通用二维表格上的推理生成能力,并开源发布了模型的基准测评脚本代码;tablebench(2024)深入研究了表格数据在工业场景中的
...【技术保护点】
1.一种表格数据分析领域大模型的训练和评估方法,其特征在于该方法包括以下步骤:
2.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤二中所述表格处理和筛选规则包括以下几项:
3.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤三中所述角色扮演是指在提示词中,为生成模型注入行业角色信息。
4.根据权利要求3所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:每次QA样本对时,对同一组问题生成优质和劣质两组回答。
5.根据权利要求1所述的一种表格数据分
...【技术特征摘要】
1.一种表格数据分析领域大模型的训练和评估方法,其特征在于该方法包括以下步骤:
2.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤二中所述表格处理和筛选规则包括以下几项:
3.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤三中所述角色扮演是指在提示词中,为生成模型注入行业角色信息。
4.根据权利要求3所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:每次qa样本对时,对同一组问题生成优质和劣质两组回答。
5.根据权利要求1所述的一种表格数据分析领域大模型的训练和评估方法,其特征在于:步骤四中所述规则匹配指的是采用正则表达式匹配的方式,同步修改样本中输入到模型中的上下文以及输出的内容。
...
【专利技术属性】
技术研发人员:陈刚,赵俊博,查良瑜,伍赛,王皓波,
申请(专利权)人:浙江大学计算机创新技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。