一种基于图神经网络的多模态文档信息抽取方法技术

技术编号：33290181 阅读：54 留言：0更新日期：2022-05-01 00:07

本发明专利技术公开了一种基于图神经网络的多模态文档信息抽取方法，包括S1：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；S2：对文本块进行文本、视觉、布局三种模态特征提取，并进行模态间的特征融合，输出图节点特征；S3：将文本块内容进行抽象化，输出初始图G＝(V,E,A)：S4：通过将图节点分配到不同的簇来实现对初始图进行划分，对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；S5：根据各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；S6：对图节点进行节点分类和链路预测，输出最终结果。本发明专利技术能够有效捕获文档的空间布局信息、有效提高语义准确性，通用性强。通用性强。通用性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图神经网络的多模态文档信息抽取方法

[0001]本专利技术涉及计算机软件领域，尤其涉及的是一种基于图神经网络的多模态文档信息抽取方法。

技术介绍

[0002]随着行业数字化转型，业务数据主要以多模态文档(如PDF、扫描件、文档图片等)的非结构化格式进行存储，文档自动化处理对于提高企业生产效率至关重要。如在供应链金融领域，需要从发票、合同、税单等电子文档中提取关键有效信息，快速了解上下游企业风险状态，协助核心企业进行供应链管理。多模态文档信息抽取任务包括从文档提取特定类别实体，并输出实体间特定关系，以key
‑
value的形式输出结构化信息。
[0003]传统的文档信息抽取主要通过人工定制规则和模板匹配、小样本统计学习，该方法对少量固定样式的文档有效，但通用性差，迁移成本高，无法适应当前多模态文档类型和样式繁多的特点。基于深度学习的方法利用大量未标注电子文档进行自监督预训练，并利用多模态技术把文本、视觉和布局信息进行融合得到文档特征，最后根据文本框位置按特定顺序(一般为从上到下、从左到右)进行序列化，通过NER技术进行实体识别，以及对三元组分类的方式进行关系抽取。该方法能够学习到不同类型文档的有效特征，在实体识别任务性能上有较大提升，但由于最后通过序列化文本进行实体识别，对于布局复杂的文档效果较差(如分栏文档中可能将实体切割)，同时在进行关系抽取时没有充分利用文本块的空间关系，一般关系匹配效果较差。
[0004]目前主流的多模态文档信息抽取方法主要包括以下流程：
[00...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的多模态文档信息抽取方法，其特征在于，包括如下步骤：步骤S1：光学字符识别OCR：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；步骤S2：预编码：对光学字符识别OCR输出的文本块进行特征提取，包括文本、视觉、布局三种模态特征，并进行模态间的特征融合，输出图节点特征；步骤S3：图构建：将所述文本块内容进行抽象化，输出初始图G＝(V,E,A)：其中，V代表图节点，E代表节点间的边，A代表图的邻接矩阵；步骤S4：图划分：通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分，并对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；步骤S5：图深度编码：根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；步骤S6：信息抽取：对步骤S5中的图节点进行节点分类和链路预测，输出最终结果。2.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S1中，对图片中的文字进行识别包括文本检测和文字识别，通过文本检测和文字识别输出所述文本块和文本块的位置坐标，其中，文本检测使用了轻量级DBNet作为骨干网络；文字识别使用CRNN来进行行文本识别，并采用CenterLoss来提升识别效果。3.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S2中，使用RoBERTa提取文本特征，使用ResNet作为骨干网络，根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征；并且，根据文本块的位...

【专利技术属性】
技术研发人员：罗伟杰，陈永红，谢翀，
申请(专利权)人：深圳前海环融联易信息科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人