【技术实现步骤摘要】
本专利技术涉及自然语言处理,特别是涉及一种基于多模态大模型的序列文字票据图像问答数据生成方法。
技术介绍
1、近年来,多模态大模型在人工智能领域取得了显著进展,展现了广泛的应用前景。多模态大模型是一种能够处理包括文本、图像、音频在内的多种类型数据的人工智能模型,在各种任务中表现出高级的智能。例如,多模态大模型可以用于自动驾驶系统中的场景理解、智能助手中的语音和图像指令响应、为图像生成自然语言描述、结合文本和图像进行翻译和回答针对指定图像的问题等。这些应用都极大地受益于多模态模型对多种类型数据的深入理解,特别是对图像数据的理解。多模态大模型对图像数据的理解能力较强的一个因素是多模态大模型可以识别和理解图像中的文本信息,比如路牌、商标、文档内容等。
2、然而,尽管在图像内容理解和识别方面取得了突破,多模态大模型在处理图像中的文字信息方面依然存在挑战。目前的多模态模型在提取图像中的文字信息时通常不如专门的光学字符识别系统准确,而且在理解这些文字信息的语义和上下文方面也有所欠缺。为了克服这些局限性,研究人员正在积极开发新的训练策略和
...【技术保护点】
1.一种基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,包括:
2.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述使用公开的小票数据集作为图片数据生成对应的文字理解问答数据,整理数据集自带的标注得到图像数据的信息,具体包括:
3.根据权利要求2所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用多模态大模型和步骤201中整理得到的图片数据的信息对目标图像内容进行详细描述,具体包括:
4.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生
...【技术特征摘要】
1.一种基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,包括:
2.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述使用公开的小票数据集作为图片数据生成对应的文字理解问答数据,整理数据集自带的标注得到图像数据的信息,具体包括:
3.根据权利要求2所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用多模态大模型和步骤201中整理得到的图片数据的信息对目标图像内容进行详细描述,具体包括:
4.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用步骤201中得到的图片数据的信息,确定对一张图片生成的有关文字信息的问题以及对应的回答的数目,具体包括:
5.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用步骤201中得到的图片数据的信息和步骤202中的得到的图像内容描述,令多模态大模型对文字信息进行自问答,生成有关文字信息的问题以及对应的回答,具体包括:
6.根据权利要求1所述的基于多模态大模型的序列文字票据图像问答数据生成方法,其特征在于,所述利用步骤201中得到的图片数据的信息和步骤202中得到的图像内容描述,令多模态大模型对步骤204提出的...
【专利技术属性】
技术研发人员:刘禹良,宋家俊,伏凌,朱泠皞,罗琪頔,黎宇哲,匡嚞玢,白翔,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。