【技术实现步骤摘要】
本专利技术涉及一种基于多模态大模型的视觉信息提取方法,属于信息,特别是属于视觉信息提取。
技术介绍
1、随着互联网技术的快速发展和信息交换需求的日益增长,大量文档现在被数字化、存储并以图像形式分发。在各种各样的应用场景中,如收据理解、卡片识别、自动论文评分和文档匹配,需要从文档图像中提取关键信息。这个过程被称为视觉信息提取(vi e),它涉及从视觉丰富的文档中挖掘、分析和提取信息。例如,在收据理解中,vi e算法可以从收据的图像中提取商店名称、产品详情和价格等信息。与从纯文本中提取信息不同,vi e的结果不仅仅由文本内容决定。它们还受到文档布局、字体风格、区块颜色、图表、图形等其他视觉因素的影响。
2、分析和处理视觉丰富的文档是一项具有挑战性的任务,现有视觉信息抽取技术对文档ocr的精度和可信度都有待提高,并且缺乏易用性,并且还存在泛化能力不佳,成本较高、流程繁琐的问题。
3、如何有效利用大模型技术,充分发掘大模型的潜在能力思维链,解决现有视觉信息提取中存在的上述问题,是目前视觉信息提取
急需要解决的技术难
【技术保护点】
1.一种基于多模态大模型的视觉信息提取方法,其特征在于:所述方法包括如下操作步骤:
2.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:
3.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:
4.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:
5.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:步骤(3)中,对初步回复结果的判断纠错处理的具体内容是:利用所述多模态大模型回复结果中的坐标信息与先前OCR得到的文字框进行匹配,选
...【技术特征摘要】
1.一种基于多模态大模型的视觉信息提取方法,其特征在于:所述方法包括如下操作步骤:
2.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:
3.根据权利要求1所述的一种基于多模态大模型的视觉信息提取方法,其特征在于:
4.根据权利要求1所述的一种基于多...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。