基于多模态大模型的序列文字票据图像问答数据生成方法技术

技术编号:43786746 阅读:26 留言:0更新日期:2024-12-24 16:20
本发明专利技术涉及自然语言处理技术技术领域,提供了一种基于多模态大模型的序列文字票据图像问答数据生成方法。方法包括:对目标图像内容进行详细描述;令多模态大模型对文字信息进行自问答,生成文字信息的问题以及回答;令多模态大模型对提出的问题进行二次回答并同时推理生成回答的依据或者理由;令多模态大模型判断问答对是否与文字信息相关,并对问答对进行一致性检验;删除不相关和不一致的问答对。本发明专利技术使用多模态大模型,实现对小票场景下的图像文字信息问答数据的大规模批量自动化生成。由此解决针对小票的以文字为中心的大规模多模态指令微调数据在数量和质量上的不足,克服获取大规模图文理解问答数据标注高昂的时间和人力成本。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是涉及一种基于多模态大模型的序列文字票据图像问答数据生成方法


技术介绍

1、近年来,多模态大模型在人工智能领域取得了显著进展,展现了广泛的应用前景。多模态大模型是一种能够处理包括文本、图像、音频在内的多种类型数据的人工智能模型,在各种任务中表现出高级的智能。例如,多模态大模型可以用于自动驾驶系统中的场景理解、智能助手中的语音和图像指令响应、为图像生成自然语言描述、结合文本和图像进行翻译和回答针对指定图像的问题等。这些应用都极大地受益于多模态模型对多种类型数据的深入理解,特别是对图像数据的理解。多模态大模型对图像数据的理解能力较强的一个因素是多模态大模型可以识别和理解图像中的文本信息,比如路牌、商标、文档内容等。

2、然而,尽管在图像内容理解和识别方面取得了突破,多模态大模型在处理图像中的文字信息方面依然存在挑战。目前的多模态模型在提取图像中的文字信息时通常不如专门的光学字符识别系统准确,而且在理解这些文字信息的语义和上下文方面也有所欠缺。为了克服这些局限性,研究人员正在积极开发新的训练策略和技术,其中之一就是指本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述使用公开的小票数据集作为图片数据生成对应的文字理解问答数据,整理数据集自带的标注得到图像数据的信息,具体包括:

3.根据权利要求2所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用多模态大模型和步骤201中整理得到的图片数据的信息对目标图像内容进行详细描述,具体包括:

4.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,...

【技术特征摘要】

1.一种基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述使用公开的小票数据集作为图片数据生成对应的文字理解问答数据,整理数据集自带的标注得到图像数据的信息,具体包括:

3.根据权利要求2所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用多模态大模型和步骤201中整理得到的图片数据的信息对目标图像内容进行详细描述,具体包括:

4.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用步骤201中得到的图片数据的信息,确定对一张图片生成的有关文字信息的问题以及对应的回答的数目,具体包括:

5.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用步骤201中得到的图片数据的信息和步骤202中的得到的图像内容描述,令多模态大模型对文字信息进行自问答,生成有关文字信息的问题以及对应的回答,具体包括:

6.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用步骤201中得到的图片数据的信息和步骤202中得到的图像内容描述,令多模态大模型对步骤204提出的...

【专利技术属性】
技术研发人员:刘禹良宋家俊伏凌朱泠皞罗琪頔黎宇哲匡嚞玢白翔
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1