【技术实现步骤摘要】
本专利技术涉及多模态问答和自然语言处理领域,尤其涉及一种基于自举式生成的图表反事实问答构建方法及系统。
技术介绍
1、图表问答(chart question answering, cqa)是多模态学习研究领域的一个重要任务,它不仅仅需要在视觉层面对图表的数值和视觉信息进行解析,同时需要对文本问题的含义和逻辑进行理解,从而给出正确的回答。
2、当前,往往通过预先训练好的视觉问答(visual question answering, vqa)模型进行图表问答,图表问答数据集的作用是能成为视觉问答模型的训练数据集和评测指标;然而,以往的图表问答数据集往往问题构造简单,缺乏复杂逻辑;近年来,多模态大模型逐渐流行,在以往的图表问答数据集上的性能指标趋于饱和,以往的图表数据集对于多模态大模型缺乏挑战性,难以以明显的差距区分不同能力的模型。
3、反事实思维(counterfactual thinking)是一种通过改变实际条件或背景来假设结果的心理学推理模式,广泛用于模拟复杂情境和分析潜在因果关系。通过将这一思维模式引入图表问
...【技术保护点】
1.一种基于自举式生成的图表反事实问答构建方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述提取图表图像中的视觉描述和元数据通过视觉语言模型完成,所述视觉语言模型包括图像编码器和文本解码器,处理过程包括:
3.根据权利要求2所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述图像编码器为双向Transformer架构神经网络,文本解码器为单向Transformer架构的神经网络;所述双向Transformer神经网络由L层Transformer块堆叠而成,每一个bl
...【技术特征摘要】
1.一种基于自举式生成的图表反事实问答构建方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述提取图表图像中的视觉描述和元数据通过视觉语言模型完成,所述视觉语言模型包括图像编码器和文本解码器,处理过程包括:
3.根据权利要求2所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述图像编码器为双向transformer架构神经网络,文本解码器为单向transformer架构的神经网络;所述双向transformer神经网络由l层transformer块堆叠而成,每一个block输入m个嵌入向量,依次经过多头注意力层、残差连接和归一化层、前向mlp层、残差连接和归一化层,最后输出m个向量,所述单向transformer神经网络中的多头注意力层中加上了casual mask,用于制造单向的注意力机制。
4.根据权利要求1所述的一种基于自举式生成的图表反事实问答构建方法,其特征在于,所述s2中的大语言模型采用以qwen2.5、llama3.1为主的开源文本生成模型,在已有的指令数据集基础上进行清洗和筛选,选择出和图表文档领域相关的instructions后,使用qlora微调方式和adamw在指令数据集上微调。
5.根据权利要...
【专利技术属性】
技术研发人员:汤斯亮,方元成,章东平,陈湘楠,张文桥,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。