System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于注意力增强大模型的文档理解方法及设备技术_技高网

一种基于注意力增强大模型的文档理解方法及设备技术

技术编号:41205963 阅读:5 留言:0更新日期:2024-05-07 22:32
本发明专利技术涉及一种基于注意力增强大模型的文档理解方法,本发明专利技术利用文档布局中视觉上丰富的信息,将视觉嵌入表示与输入文本嵌入对齐,显著了改善视觉丰富的文档中的语言表示形式,本发明专利技术采用新颖的基于文档图像和文本语义信息、构建多模态的文档解析与理解框架。该框架充分建模图像、文本与语义信息,通过关注点图像生成网络与语义信息增强模块,从不同侧面理解文档语义。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,特别是一种基于注意力增强大模型的文档理解方法及设备


技术介绍

1、电子文档由于布局和格式的多样性、扫描文献图像质量的不稳定性,以及模板结构的错综复杂,计算机自动理解电子文档成为一项颇具挑战性的任务。目前的主流技术基于上述基本技术方法的整合,概括为如下三类:基于规则的方法、传统的机器学习方法和深度学习方法。

2、基于规则的方法需要大量人工工作以设计规则,难以推广;而机器学习方法往往依赖手工设计的特征,忽略了文本信息。现有的深度学习方法的局限性包括:模型通常依赖标记数据的规模是有限的,而大量未标记的数据无法未被使用;目前的深度学习模型通常利用预训练的计算机视觉模型以及自然语言处理模型,并没有考虑文本和布局信息的交互和多模态联合预训练。通过堆叠多层神经网络逼近任意复杂的函数。基于深度学习的方法专注于低层语义信息,如文字、表格和图片等的检测与识别,而较少考虑对文档高层语义结构的理解,如篇章、段落和论点的提取,深入理解文档语义仍有待改进;缺乏对文档中非结构化元素的建模(如表格、公式、图像等),将这些信息有效融入模型中的能力有限。

3、基于深度学习的方法相比于现有其他主流方法虽具有明显优势,但通过堆叠多层甚至深度神经网络逼近任意复杂的函数的方式实现文档智能,导致模型规模大且注意力模组没有改进和优化,在训练以及推理阶段效率较低,也限制了该方法的推广应用。


技术实现思路

1、本专利技术的目的在于克服现有技术的缺点,提供一种注意力增强大模型的文档理解方法,有效提升了文档理解算法中基座大模型的推理能力。

2、一种基于注意力增强大模型的文档理解方法,其特征在于,包括以下步骤:

3、s1:输入电子形式文档;

4、s2:将文档内的文本数据与图片数据转换为二维表示结果;

5、s3:将二维表示结果输入到注意力增强大模型中进行文档理解;

6、s4:输出针对表单理解、收据理解和文档图像分类等特定任务的推理结果。

7、进一步地,所述步骤s2中,将文档内的文本数据与图片数据转换为二维表示结果的方法为通过光学字符识别获得文本字符及其在文档图像中的相应位置二维位置,融合语言表示与2d位置特征嵌入,实现文档布局信息与语义表示的对齐。

8、进一步地,所述步骤s2中,还应用分割一切模型(sam)算法对输入电子文档进行图像目标分割,结合光学字符识别的结果,实现文档中的文本块、图表区域等的结构解析。

9、进一步地,所述注意力增强大模型进行文档理解的步骤包括:

10、s301:实现文档的多模态融合表示;

11、s302:注意力头输出;

12、s303:增强注意力计算;

13、s304:增强注意力提取;

14、s305:增强注意力分配;

15、s306:输出结果。

16、进一步地,所述步骤s302具体为:将注意力头维度a,文档输入字符标记序列长度为l;在标记推理期间,注意力头的输出表示为:其中q表示查询向量,代表键和值缓存。

17、进一步地,所述步骤s303具体为:降序排列寻找到|q|维的m个最大成分的索引指数,其中q代表查询向量,|q|表示查询向量q的维数。

18、进一步地,所述步骤s304具体为:在增强注意力得分中找到最大的t个位置,并获取相应的完整键k和值v向量。使用t个键和值计算注意力块的输出。

19、进一步地,所述步骤s305具体为:使用增强注意力得分评估分配给t个位置的总得分数α,使用这个总得分数在从t个位置的注意力输出和一个均值向量之间进行插值,最终得到注意力增强输出。

20、为了解决上述问题,本专利技术还提供一种电子设备,一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行基于注意力增强大模型的文档理解方法。

21、一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现基于注意力增强大模型的文档理解方法。

22、本专利技术具有以下优点:

23、1、本专利技术采用新颖的基于文档图像和文本语义信息、构建多模态的文档解析与理解框架。该框架充分建模图像、文本与语义信息,通过关注点图像生成网络与语义信息增强模块,从不同侧面理解文档语义。

24、2、本专利技术实现的文档智能理解模型和算法,可以对业务文档中的信息自动进行分类、提取和结构化,从而加速自动化文档处理工作流程,实现表单理解、收据理解和文档图像分类等任务。

25、3、本专利技术为端到端的文档语义理解、适用于多类型文档、处理非结构化元素。

本文档来自技高网...

【技术保护点】

1.一种基于注意力增强大模型的文档理解方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤S2中,将文档内的文本数据与图片数据转换为二维表示结果的方法为通过光学字符识别获得文本字符及其在文档图像中的相应位置二维位置,融合语言表示与2D位置特征嵌入,实现文档布局信息与语义表示的对齐。

3.如权利要求2所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤S2中,还应用分割一切模型(SAM)算法对输入电子文档进行图像目标分割,结合光学字符识别的结果,实现文档中的文本块、图表区域等的结构解析。

4.如权利要求4所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述注意力增强大模型进行文档理解的步骤包括:

5.如权利要求4所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤S302具体为:将注意力头维度A,文档输入字符标记序列长度为L;在标记推理期间,注意力头的输出表示为:其中q表示查询向量,代表键和值缓存。

6.如权利要求5所述的一种基于注意力增强大模型的文档理、解方法,其特征在于,所述步骤S303具体为:降序排列寻找到|q|维的M个最大成分的索引指数,其中q代表查询向量,|q|表示查询向量q的维数。

7.如权利要求6所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤S304具体为:在增强注意力得分中找到最大的t个位置,并获取相应的完整键k和值v向量。使用t个键和值计算注意力块的输出。

8.如权利要求7所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤S305具体为:使用增强注意力得分评估分配给t个位置的总得分数α,使用这个总得分数在从t个位置的注意力输出和一个均值向量之间进行插值,最终得到注意力增强输出。

9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任意一项所述的基于注意力增强大模型的文档理解方法。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的基于注意力增强大模型的文档理解方法。

...

【技术特征摘要】

1.一种基于注意力增强大模型的文档理解方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤s2中,将文档内的文本数据与图片数据转换为二维表示结果的方法为通过光学字符识别获得文本字符及其在文档图像中的相应位置二维位置,融合语言表示与2d位置特征嵌入,实现文档布局信息与语义表示的对齐。

3.如权利要求2所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤s2中,还应用分割一切模型(sam)算法对输入电子文档进行图像目标分割,结合光学字符识别的结果,实现文档中的文本块、图表区域等的结构解析。

4.如权利要求4所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述注意力增强大模型进行文档理解的步骤包括:

5.如权利要求4所述的一种基于注意力增强大模型的文档理解方法,其特征在于,所述步骤s302具体为:将注意力头维度a,文档输入字符标记序列长度为l;在标记推理期间,注意力头的输出表示为:其中q表示查询向量,代表键和值缓存。

6.如权利要求5所述的一种基于注意力增强大模型的文档理、解方法,其特征在于,所述步骤s303具体...

【专利技术属性】
技术研发人员:曹东
申请(专利权)人:上海传之神科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1