一种基于图神经网络的多模态文档信息抽取方法技术

技术编号:33290181 阅读:54 留言:0更新日期:2022-05-01 00:07
本发明专利技术公开了一种基于图神经网络的多模态文档信息抽取方法,包括S1:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;S2:对文本块进行文本、视觉、布局三种模态特征提取,并进行模态间的特征融合,输出图节点特征;S3:将文本块内容进行抽象化,输出初始图G=(V,E,A):S4:通过将图节点分配到不同的簇来实现对初始图进行划分,对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;S5:根据各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;S6:对图节点进行节点分类和链路预测,输出最终结果。本发明专利技术能够有效捕获文档的空间布局信息、有效提高语义准确性,通用性强。通用性强。通用性强。

【技术实现步骤摘要】
一种基于图神经网络的多模态文档信息抽取方法


[0001]本专利技术涉及计算机软件领域,尤其涉及的是一种基于图神经网络的多模态文档信息抽取方法。

技术介绍

[0002]随着行业数字化转型,业务数据主要以多模态文档(如PDF、扫描件、文档图片等)的非结构化格式进行存储,文档自动化处理对于提高企业生产效率至关重要。如在供应链金融领域,需要从发票、合同、税单等电子文档中提取关键有效信息,快速了解上下游企业风险状态,协助核心企业进行供应链管理。多模态文档信息抽取任务包括从文档提取特定类别实体,并输出实体间特定关系,以key

value的形式输出结构化信息。
[0003]传统的文档信息抽取主要通过人工定制规则和模板匹配、小样本统计学习,该方法对少量固定样式的文档有效,但通用性差,迁移成本高,无法适应当前多模态文档类型和样式繁多的特点。基于深度学习的方法利用大量未标注电子文档进行自监督预训练,并利用多模态技术把文本、视觉和布局信息进行融合得到文档特征,最后根据文本框位置按特定顺序(一般为从上到下、从左到右)进行序列化,通过NER技术进行实体识别,以及对三元组分类的方式进行关系抽取。该方法能够学习到不同类型文档的有效特征,在实体识别任务性能上有较大提升,但由于最后通过序列化文本进行实体识别,对于布局复杂的文档效果较差(如分栏文档中可能将实体切割),同时在进行关系抽取时没有充分利用文本块的空间关系,一般关系匹配效果较差。
[0004]目前主流的多模态文档信息抽取方法主要包括以下流程:
[0005]1)利用OCR技术识别文档中的候选文本框;
[0006]2)通过预训练模型提取候选文本框的特征,包括文本特征、视觉特征和位置坐标;
[0007]3)对2)中提取的不同维度特征,通过多模态融合技术对候选文本块进行融合编码,融合方式包括最大(平均)池化、双线性模型,注意力机制等;
[0008]4)根据候选文本框的位置坐标,按照从上到下,从左到右的顺序进行序列化,然后利用NER技术进行实体识别,通过对候选文本框两两组合形成的三元组(加入相对位置信息)分类进行关系抽取。
[0009]现有技术依赖于OCR模型的输出进行序列化,一般遵循“从上到下,从左到右”的阅读原则,但对于文档中分栏、文本图片表格混杂的复杂布局,此时获得的阅读顺序多数情况下是错误的,容易导致实体被切割以及语义混乱;同时,序列化无法捕捉文档中的结构化层次信息(如表格中表头与单元格间的关系),在关系抽取的任务中往往表现不佳。
[0010]因此,现有技术存在缺陷,需要改进。

技术实现思路

[0011]本专利技术所要解决的技术问题是:提供一种能够有效捕获文档的空间布局信息、有效提高语义准确性,通用性强的基于图神经网络的多模态文档信息抽取方法。
[0012]本专利技术的技术方案如下:一种基于图神经网络的多模态文档信息抽取方法,包括如下步骤:步骤S1:光学字符识别OCR:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;步骤S2:预编码:对光学字符识别OCR输出的文本块进行特征提取,包括文本、视觉、布局三种模态特征,并进行模态间的特征融合,输出图节点特征;步骤S3:图构建:将所述文本块内容进行抽象化,输出初始图G=(V,E,A):其中,V代表图节点,E代表节点间的边,A代表图的邻接矩阵;步骤S4:图划分:通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分,并对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;步骤S5:图深度编码:根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;步骤S6:信息抽取:对步骤S5中的图节点进行节点分类和链路预测,输出最终结果。
[0013]应用于上述技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S1中,对图片中的文字进行识别包括文本检测和文字识别,通过文本检测和文字识别输出所述文本块和文本块的位置坐标,其中,文本检测使用了轻量级DBNet作为骨干网络;文字识别使用CRNN来进行行文本识别,并采用CenterLoss来提升识别效果。
[0014]应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S2中,使用RoBERTa提取文本特征,使用ResNet作为骨干网络,根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征;并且,根据文本块的位置坐标、大小生成初始布局特征;最后,对提取的文本特征、视觉特征、布局特征三种模态特征,利用Block机制进行特征融合,输出图节点特征。
[0015]应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S3中,E代表节点间的边,是由各文本块间的空间关系以及语义相似度定义,边的特征通过计算文本块之间的相对位置关系,以及包含两者的视觉范围特征得出;A代表图的邻接矩阵,通过得到的边特征,利用多头自注意力机制进行计算。
[0016]应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S4中,通过将图节点分配到不同的簇来实现图划分具体包括:假设当前图节点个数为N,首先预定义衰减因子c确定下一层簇的个数N*c,利用第一图卷积网络进行信息交互和图节点分配矩阵学习N x N*c,分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互,图的邻接矩阵维度由N x N变为N*c x N*c;通过迭代多次分配实现图的分块。
[0017]应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S5中,对图节点的最终表示进行更新包括:在相同簇内的图节点按照“从左到右,从上到下”的原则进行横向位置排序编码;对图节点的依次分配结果进行纵向位置编码,同时将层次化分块信息和局部阅读顺序融入到图节点表示中。
[0018]应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S6中,所述链路预测是通过拼接两个候选图节点的表示作为输入,最后通过一个分类器计算两者之间边的概率。
[0019]本专利技术的有益效果为:
[0020]本专利技术通过图的形式将文档内容抽象化,能够有效捕获文档的空间布局信息,在关系抽取任务中有更好的表现;并且,利用图划分对文档内容进行局部分块,符合人类层次
化分块阅读的习惯,有效提高语义准确性;本专利技术通用性强:模型能够有效提取文档的局部结构信息,在复杂布局的文档同样适用。
[0021]并且,本专利技术基于图神经网络,将文档内容抽象成图,能够有效捕获文档的层次化信息,同时通过图划分的形式对文档的局部结构进行有效识别,符合人类层次化分块阅读的习惯,对于具有复杂布局的文档也能够进行准确理解。
附图说明
[0022]图1为本专利技术的流程示意图。
具体实施方式
[0023]以下结合附图和具体实施例,对本专利技术进行详细说明。
[0024]本实施例提供了一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的多模态文档信息抽取方法,其特征在于,包括如下步骤:步骤S1:光学字符识别OCR:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;步骤S2:预编码:对光学字符识别OCR输出的文本块进行特征提取,包括文本、视觉、布局三种模态特征,并进行模态间的特征融合,输出图节点特征;步骤S3:图构建:将所述文本块内容进行抽象化,输出初始图G=(V,E,A):其中,V代表图节点,E代表节点间的边,A代表图的邻接矩阵;步骤S4:图划分:通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分,并对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;步骤S5:图深度编码:根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;步骤S6:信息抽取:对步骤S5中的图节点进行节点分类和链路预测,输出最终结果。2.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S1中,对图片中的文字进行识别包括文本检测和文字识别,通过文本检测和文字识别输出所述文本块和文本块的位置坐标,其中,文本检测使用了轻量级DBNet作为骨干网络;文字识别使用CRNN来进行行文本识别,并采用CenterLoss来提升识别效果。3.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S2中,使用RoBERTa提取文本特征,使用ResNet作为骨干网络,根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征;并且,根据文本块的位...

【专利技术属性】
技术研发人员:罗伟杰陈永红谢翀
申请(专利权)人:深圳前海环融联易信息科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1