一种基于多模态大模型的视觉信息提取方法技术

技术编号:43914928 阅读:87 留言:0更新日期:2025-01-03 13:21
一种基于多模态大模型的视觉信息提取方法,包括如下步骤:(1)使用三类专门数据,即文本定位数据、视觉参考数据和链式思考数据对多模态大模型进行微调;(2)用户上传目标图片并输入文字提示,根据情况触发模板库检索并添加上下文信息;(3)多模态大模型产生初步回复结果并结合OCR文字识别结果生成最终回复结果;(4)对话历史和元信息将被整合并保存到模板库中;本发明专利技术方法实现了结果文本框的准确输出,配合专用OCR模型完成了对大模型输出结果的纠错,提高了视觉信息提取的准确率和可信度。

【技术实现步骤摘要】

本专利技术涉及一种基于多模态大模型的视觉信息提取方法,属于信息,特别是属于视觉信息提取。


技术介绍

1、随着互联网技术的快速发展和信息交换需求的日益增长,大量文档现在被数字化、存储并以图像形式分发。在各种各样的应用场景中,如收据理解、卡片识别、自动论文评分和文档匹配,需要从文档图像中提取关键信息。这个过程被称为视觉信息提取(vi e),它涉及从视觉丰富的文档中挖掘、分析和提取信息。例如,在收据理解中,vi e算法可以从收据的图像中提取商店名称、产品详情和价格等信息。与从纯文本中提取信息不同,vi e的结果不仅仅由文本内容决定。它们还受到文档布局、字体风格、区块颜色、图表、图形等其他视觉因素的影响。

2、分析和处理视觉丰富的文档是一项具有挑战性的任务,现有视觉信息抽取技术对文档ocr的精度和可信度都有待提高,并且缺乏易用性,并且还存在泛化能力不佳,成本较高、流程繁琐的问题。

3、如何有效利用大模型技术,充分发掘大模型的潜在能力思维链,解决现有视觉信息提取中存在的上述问题,是目前视觉信息提取
急需要解决的技术难题。


...

【技术保护点】

1.一种基于多模态大模型的视觉信息提取方法,其特征在于:所述方法包括如下操作步骤:

2.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:

3.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:

4.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:

5.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:步骤(3)中,对初步回复结果的判断纠错处理的具体内容是:利用所述多模态大模型回复结果中的坐标信息与先前OCR得到的文字框进行匹配,选择交并比IoU值最大...

【技术特征摘要】

1.一种基于多模态大模型的视觉信息提取方法,其特征在于:所述方法包括如下操作步骤:

2.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:

3.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:

4.根据权利要求1所述的一种基于多...

【专利技术属性】
技术研发人员:王玉龙张磊常展赵海秀
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1