当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于自举式生成的图表反事实问答构建方法及系统技术方案

技术编号:44573039 阅读:30 留言:0更新日期:2025-03-11 14:33
本发明专利技术公开了一种基于自举式生成的图表反事实问答构建方法及系统,包括提取图表图像中的视觉描述和元数据;基于图表视觉描述文本,通过大语言模型的少样本提示方法生成与图表视觉描述文本相对应的初始反事实假设提案,以自举的方式生成达到数量要求的提案储备;基于图表元数据和初始问题答案对,对假设提案储备采样出反事实假设提案样本,通过大语言模型的少样本提示方法生成反事实问题答案对;在收集达到数量要求的反事实问题答案对后,核查反事实问题答案对的文本和数值。本发明专利技术能够构建具有反事实逻辑的图表问答数据集,能为视觉问答模型的性能评测生成具有挑战性的测试集,能为视觉文本模型的训练提供具有多样性的训练语料。

【技术实现步骤摘要】

本专利技术涉及多模态问答和自然语言处理领域,尤其涉及一种基于自举式生成的图表反事实问答构建方法及系统


技术介绍

1、图表问答(chart question answering, cqa)是多模态学习研究领域的一个重要任务,它不仅仅需要在视觉层面对图表的数值和视觉信息进行解析,同时需要对文本问题的含义和逻辑进行理解,从而给出正确的回答。

2、当前,往往通过预先训练好的视觉问答(visual question answering, vqa)模型进行图表问答,图表问答数据集的作用是能成为视觉问答模型的训练数据集和评测指标;然而,以往的图表问答数据集往往问题构造简单,缺乏复杂逻辑;近年来,多模态大模型逐渐流行,在以往的图表问答数据集上的性能指标趋于饱和,以往的图表数据集对于多模态大模型缺乏挑战性,难以以明显的差距区分不同能力的模型。

3、反事实思维(counterfactual thinking)是一种通过改变实际条件或背景来假设结果的心理学推理模式,广泛用于模拟复杂情境和分析潜在因果关系。通过将这一思维模式引入图表问答数据集的构建中,可本文档来自技高网...

【技术保护点】

1.一种基于自举式生成的图表反事实问答构建方法,其特征在于,该方法包括:

2.根据权利要求1所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述提取图表图像中的视觉描述和元数据通过视觉语言模型完成,所述视觉语言模型包括图像编码器和文本解码器,处理过程包括:

3.根据权利要求2所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述图像编码器为双向Transformer架构神经网络,文本解码器为单向Transformer架构的神经网络;所述双向Transformer神经网络由L层Transformer块堆叠而成,每一个block输入m个嵌入向...

【技术特征摘要】

1.一种基于自举式生成的图表反事实问答构建方法,其特征在于,该方法包括:

2.根据权利要求1所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述提取图表图像中的视觉描述和元数据通过视觉语言模型完成,所述视觉语言模型包括图像编码器和文本解码器,处理过程包括:

3.根据权利要求2所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述图像编码器为双向transformer架构神经网络,文本解码器为单向transformer架构的神经网络;所述双向transformer神经网络由l层transformer块堆叠而成,每一个block输入m个嵌入向量,依次经过多头注意力层、残差连接和归一化层、前向mlp层、残差连接和归一化层,最后输出m个向量,所述单向transformer神经网络中的多头注意力层中加上了casual mask,用于制造单向的注意力机制。

4.根据权利要求1所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述s2中的大语言模型采用以qwen2.5、llama3.1为主的开源文本生成模型,在已有的指令数据集基础上进行清洗和筛选,选择出和图表文档领域相关的instructions后,使用qlora微调方式和adamw在指令数据集上微调。

5.根据权利要...

【专利技术属性】
技术研发人员:汤斯亮方元成章东平陈湘楠张文桥
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1