一种基于注意力增强大模型的文档理解方法及设备技术

技术编号：41205963 阅读：23 留言：0更新日期：2024-05-07 22:32

本发明专利技术涉及一种基于注意力增强大模型的文档理解方法，本发明专利技术利用文档布局中视觉上丰富的信息，将视觉嵌入表示与输入文本嵌入对齐，显著了改善视觉丰富的文档中的语言表示形式，本发明专利技术采用新颖的基于文档图像和文本语义信息、构建多模态的文档解析与理解框架。该框架充分建模图像、文本与语义信息,通过关注点图像生成网络与语义信息增强模块,从不同侧面理解文档语义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，特别是一种基于注意力增强大模型的文档理解方法及设备。

技术介绍

1、电子文档由于布局和格式的多样性、扫描文献图像质量的不稳定性，以及模板结构的错综复杂，计算机自动理解电子文档成为一项颇具挑战性的任务。目前的主流技术基于上述基本技术方法的整合，概括为如下三类：基于规则的方法、传统的机器学习方法和深度学习方法。

2、基于规则的方法需要大量人工工作以设计规则，难以推广；而机器学习方法往往依赖手工设计的特征，忽略了文本信息。现有的深度学习方法的局限性包括：模型通常依赖标记数据的规模是有限的，而大量未标记的数据无法未被使用；目前的深度学习模型通常利用预训练的计算机视觉模型以及自然语言处理模型，并没有考虑文本和布局信息的交互和多模态联合预训练。通过堆叠多层神经网络逼近任意复杂的函数。基于深度学习的方法专注于低层语义信息，如文字、表格和图片等的检测与识别，而较少考虑对文档高层语义结构的理解，如篇章、段落和论点的提取，深入理解文档语义仍有待改进；缺乏对文档中非结构化元素的建模(如表格、公式、图像等)，将这些信息有...

【技术保护点】

1.一种基于注意力增强大模型的文档理解方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于注意力增强大模型的文档理解方法，其特征在于，所述步骤S2中，将文档内的文本数据与图片数据转换为二维表示结果的方法为通过光学字符识别获得文本字符及其在文档图像中的相应位置二维位置，融合语言表示与2D位置特征嵌入，实现文档布局信息与语义表示的对齐。

3.如权利要求2所述的一种基于注意力增强大模型的文档理解方法，其特征在于，所述步骤S2中，还应用分割一切模型(SAM)算法对输入电子文档进行图像目标分割，结合光学字符识别的结果，实现文档中的文本块、图表区域等的结构解析。<...

【技术特征摘要】

1.一种基于注意力增强大模型的文档理解方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于注意力增强大模型的文档理解方法，其特征在于，所述步骤s2中，将文档内的文本数据与图片数据转换为二维表示结果的方法为通过光学字符识别获得文本字符及其在文档图像中的相应位置二维位置，融合语言表示与2d位置特征嵌入，实现文档布局信息与语义表示的对齐。

3.如权利要求2所述的一种基于注意力增强大模型的文档理解方法，其特征在于，所述步骤s2中，还应用分割一切模型(sam)算法对输入电子文档进行图像目标分割，结合光学字符识别的结果，实现文档中的文本块、图表区域等的结构解析。

4.如权利要求4所述的一种基于注意力增强大模型的文档理解方法，其特征在于，所述注意力增强大模型进行文档理解的步骤包括：

5.如权利要求4所述的一种基于注意力增强大模型的文档理解方法，其特征在于，所述步骤s302具体为：将注意力头维度a，文档输入字符标记序列长度为l；在标记推理期间，注意力头的输出表示为：其中q表示查询向量，代表键和值缓存。

6.如权利要求5所述的一种基于注意力增强大模型的文档理、解方法，其特征在于，所述步骤s303具体...

【专利技术属性】
技术研发人员：曹东，
申请(专利权)人：上海传之神科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人