当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于图注意力网络的表格指标信息抽取方法技术

技术编号:38912263 阅读:20 留言:0更新日期:2023-09-25 09:28
本发明专利技术属于行业标准信息数字化技术领域,具体为一种基于图注意力网络的表格指标信息抽取方法。本发明专利技术包括:表格预处理;单元格信息编码;邻接列表分析;表格信息关联分析;分类和指标信息计算;表格预处理是对表格进行图网络结构化处理,得到表格信息的图网络结构;然后分别对表格中单元格进行词向量编码和邻接列表分析;邻接列表分析包括在取得单元格的行邻接列表和列邻接列表后,结合词向量编码,得到同行或同列表单元格语义信息;表格信息关联度分析包括表格信息关联度分析和行列信息传递关系分析;分类和指标信息计算,使用线性分类器进行分类得到当前单元格的指标归类结果。本发明专利技术效率更高,得到的表格指标信息更正确、更完整。完整。完整。

【技术实现步骤摘要】
一种基于图注意力网络的表格指标信息抽取方法


[0001]本专利技术属于行业标准信息数字化
,具体涉及基于图注意力网络的表格指标信息抽取方法。

技术介绍

[0002]随着数字化的推进,各行业都在进行数字化建设,其中包括行业标准信息数字化。以往的标准指标抽取工作一般由行业专家对标准文件进行解读后对其进行抽取。由于每年都会有新的标准文件发布或更新,使用人工进行抽取,会耗费大量人力,效率低下。深度学习技术的引入,使信息抽取算法能够从无格式的文本中提取关键信息,但在处理标准文件中存在表格信息时,这些算法无法充分利用表格部分的结构信息和内容信息。
[0003]从标准文件中提取指标的方法大多依靠专家人工标注,但行业内的规范数量非常多,使用人工标注的方法需要耗费大量人力和时间,且人工在进行标注难免会造成差错。另外每个专家对于规范的理解也各不相同,因此最终标注的结果也可能存在差异,甚至可能存在相互矛盾的情况。例如对于同样的指标名称,不同专家给出的划分规则也可能各不相同,划分标准不统一,且容易发生误标或漏标的缺陷。另外,由于轨道交通行业的标准文件数量较多,依靠传统的人工标注方法在效率和准确率方面都已无法满足实际需求,需要一种更加高效的方式来代替人工进行标注指标的抽取与管理。
[0004]传统的信息提取算法,例如BiLSTM

CRF等虽然能够从大段文本中抽取出关键信息,但这类算法通常需要根据关键信息的前后文来进行判断,因此适用于无格式的文本,而所涉及到的是表格信息,表格信息与常规的文本信息的区别在于表格本身带有结构化的信息,以标准指标信息为例,在无格式文本中涉及同一标准指标的各项关键信息通常处于同一句句子或前后相连的两句句子中,但在表格信息中,整条完整的指标信息所牵涉到的所有关键信息分布在多个表格中。若将整张表格作为无格式的文本直接处理,则部分相关指标可能在位置上相距较远,难以获取彼此之间的信息。此外若将表格文本直接作为无格式文本进行处理,则表格内大量的数据单元格虽然能将其提取出来作为指标数据,但是无法确定这些指标数据与其他指标名称以及指标类别的关系等。
[0005]目前,直接对于表格信息进行信息抽取的相关研究较少,针对信息抽取的研究主要集中在对于大段的无结构文本等领域,而类似于表格的其他格式化、半格式化文本的信息抽取研究则主要集中在Web信息抽取以及发票信息的识别等任务上。
[0006]基于图结构的方法是将文本作为各小块组成的图结构,随后使用深度学习的方法来学习各文本块之间的相对关系,从而提取出文档的关键信息。传统的命名实体识别NER算法BiLSTM

CRF没有充分利用到文档的布局信息,在对文本信息进行编码时,用到了文本框的大小以及位置信息,将之转化为位置向量信息输入图网络中,并通过图卷积产生的图嵌入使得当前文本段能够总结上下文的信息,最后将经过GCN学习到的特征接入BiLSTM

CRF模块中完成信息分类任务。Xu等人[9]提出的LayoutLM模型以BERT作为骨干网络,引入了二维位置向量来表示布局以及版式信息,使用每个文本框的左上角和右下角的横纵坐标来记
录整个文本框相对于文档的位置,并选择性地加入视觉向量来补充更多信息,使下游任务能够更好地结合多模态的信息。Wang等人[10]通过设计一种新颖的图算法将实体关系抽取的联合任务转换为有向图,并提出了一种基于过渡的方法来逐步生成有向图。Riba[11]以及Qasim[12]等人分别就如何将发票信息转化为图模型做了相关工作,其中Riba等人根据识别出来的所有文字段落位置,将所有垂直以及水平对齐的段落相连,进而将发票中的所有文本信息转化为图结构。Qasim等人则是使用KNN算法,将每文本段落作为一个图节点后,与其最近的k个其他节点进行相连。基于图结构方法的主要特点在于将每个文本块的位置信息进行编码后与文本信息进行结合,能够充分利用文档的空间布局信息。
[0007]端到端的方法则是将原始的图片信息直接作为输入,从而得到文档的关键信息,主要算法包括EATEN[13]以及TRIE[14]。Guo等人发现基于检测识别流程的信息提取技术会受到如轻微的位置偏移等带来的影响,因而提出了EATEN算法,EATEN算法采用卷积神经网络来提取图片的视觉信息,随后使用基于实体类别感知的注意力网络来学习布局信息,最后利用基于LSTM的解码器得到需要的实体信息。TRIE算法则是将文字检测,文字识别以及信息提取这三个任务放在一起构成一个端到端的网络进行学习,TRIE算法中使用了Resnet和FPN作为骨干网络对于文字部分进行检测,随后利用文字检测网络以及ROIAlign[15]的结果进行文字识别,最后将文本位置信息、视觉信息、语义信息进行融合,通过BiLSTM来进行IOB标签分类得到文档关键信息。
[0008]以往的研究中,构建图结构所采用的方法通常是是在上下左右相邻的节点之间建立连接,或整张图上所有的图节点全都进行相连,但这种构图方式并不适用于表格信息。首先表格数据中一个单元格的相关信息通常包含在同行同列的其他单元格中,若采用全部相连的方法将导致相连的节点中存在大量干扰数据,而若仅和相连单元格相连,则行列数较多的表格需要经过多层图网络才能使相隔较远的单元格相互传递信息。
[0009]由于同行同列的其他单元格与当前单元格的关联程度不同,因而对其最终分类所产生的影响也各有不同,以往的相关研究采用的是标准的图注意力网络结构,即使用共享权重矩阵W对于两个图节点的信息进行计算后拼接,但仅使用一个共享权重矩阵W的参数过少,影响模型容量,因此参考Bert算法中的解决方案,提出了表格关联度模块TCM(Table Correlation Module),分别采用查询矩阵W
q
以及键值矩阵W
k
对于单元格的文本信息进行运算,从而得到两个单元格之间的关联度。标准的图注意力网络在计算出当前图节点与其他图节点的注意力后,根据注意力计算权重,聚合周围节点信息后更新自身信息,但若某个其他节点的注意力大于自注意力,则在更新信息时将导致节点自身的信息被替换为了其他节点的信息。

技术实现思路

[0010]本专利技术的目的在于提供一种基于图注意力网络的表格指标抽取方法,以克服现有技术的不足与缺点。
[0011]本专利技术针对表格大小不确定的问题,使用图网络来解决表格数据的分类问题,并根据表格结构的特点,将表格结构转化为图结构的方式进行优化,将同行同列的所有单元格之间距离全部设置为一跳,使图结构更适用于处理表格数据;基于图注意力网络进行改进,设计表格关联度模块TCM以及行列信息传递模块TITM,使得每个单元格能自适应获取其
他单元格的信息,且在保留节点原有信息的情况下,同时获取整张表格内其他单元格的重要信息,进而整合出表格数据标准指标抽取算法,最终通过实验验证该算法的有效性,并成功对于表格数据完成指标抽取。
[0012]本专利技术提供的基于图注意力网络的表格指标信息抽取方法,分为五大部分:(一)表格本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一中基于图注意力网络的表格指标信息抽取方法,其特征在于,分为五大部分:(一)表格预处理;(二)单元格信息编码;(三)邻接列表分析;(四)表格信息关联分析;(五)分类和指标信息计算;其中:所述表格预处理,即对表格信息进行图网络结构化处理,得到表格信息的图网络结构;然后分别对表格中的单元格进行词向量编码和邻接列表分析;所述单元格信息编码,包括对表格中文字进行分词和词嵌入编码,并将编码后结果输入双向循环神经网进行语义特征提取,得到单元格语义信息U
i
;所述邻接列表分析,包括在取得某一单元格的行邻接列表和列邻接列表后,结合词向量编码,得到同行或同列表单元格语义信息U
j
;所述表格信息关联度分析,根据U
i
和U
j
进行表格信息关联度分析,包括:表格信息关联度分析计算和行列信息传递关系分析计算;经过2层关联度计算之后,获得2层的同行或同列的行和列方向的语义信息,其中,第1层的行列语义信息为V
row(1)
和V
col(1)
,第2层的行列语义信息V
row(2)
和V
col(2)
,将第1层的关联度信息作为模型输出的一部分;将第2层的行列语义信息为V
row(2)
和V
col(2)
和单元格语义信息U
i
合并,然后传递至分类输出层输出;分类和指标信息计算,使用线性分类器进行分类,得到当前单元格的指标归类结果。2.根据权利要求1所述的表格指标信息抽取方法,其特征在于,所述的表格信息的图网络结构化处理,是将大小不固定的表格信息视为一张图,表格中的每一个单元格视为图中的一个节点,相邻的单元格视为两个图节点彼此连接,由此将整张表格的信息转化为图信息;对由表格转化而成的图结构进行调整,即对表格中的每一个单元格,将其同行或同列的其他所有单元格都作为其一跳邻居,使每个单元格在经过尽可能短的路径的前提下,获取更多表格内容信息;使用这种规则定义表格的图结构,使得任意两个不在同行或同列的单元格,仅经过二跳距离,即可相互之间传递信息。3.根据权利要求2所述的表格指标信息抽取方法,其特征在于,所述单元格信息编码,是将所有表格的文本信息转换为可计算的向量矩阵;包括单元格的分词、词向量编码;对于单元格的分词,采用jieba分词工具对单元格的文本进行分词;经分词后,使用Word2Vec的方法将各词转化为对应的词向量,并进行拼接;由于每个单元格的信息需要转化为固定大小,每个单元格截取15个词的长度,而每个词的词向量长度为固定的300维;经过单元格信息编码后,整个表格的文本信息被转化为了{[单元格数量]*15*300}的词向量矩阵;随后每个单元格的信息经过循环神经网络BiLSTM,使得每个单元格内的词获取当前单元格内的前后文关系。4.根据权利要求3所述的表格指标信息抽取方法,其特征在于,所述邻接列表分析,具体为:在图网络中,需要依赖于邻接矩阵或是邻接列表对于图的结构进行表示;由于图结构是将任意单元格与其同行或同列的其他单元格直接相连,均作为其一跳邻节点,因此根据每个单元格所处的行列位置,计算得到每个单元格连接的其他单元格;整体算法的输入部分包括表格的文本信息,表格的行数row
num
与列数column
num
,然后按行优先的方式对于每个单元格进行编号,每个单元格D根据自身的index编号求出所在的行列row
i
与col
i
:
row
i
=index div column
num
,col
i
=index mod column
num
,通过遍历行坐标以及列坐标,获得单元格i在行方向的所有邻节点集合以及列方向的所有邻节点集合向的所有邻节点集合最终将计算获得的所有邻节点集合拼接起来,得到行方向邻列表Adj
row
以及列方向邻接列表Adj
col
,供下一步计算时使用。5.根据权利要求4所述的表格指标信息抽取方法,其特征在于,所述表格信息关联分析,表格信息关联度分析计算和行列信息传递关系分析计算;(1)表格信息关联度分析计算:为了能够从周边单元格处获取信息,从而获得上下文的信息补充,帮助判断其最终归属的类别,在图网络中构建一个关联度模块TCM,用以学习两个不同单元格之间语义信息相关度,并根据信息相关度,确定同行同列其他信息对于当前单元格的影响程度,确定每个单元格贡献度的权重,再按获取的权重乘以同行同列其他单元格的信息后进行相加,得到融合了整行或整列其他单元格的文本信息;具体地:构建查询矩阵W
q
与键值矩阵W
k
,其中W
q
与当前所选单元格的语义信息进行计算,而W
k
则与该单元格所在同行或同列的其他单元格进行计算,得到矩阵Q与K:Q
i
=W
q
U
i
,W
q
与W
k
的大小均为d
×
d,Q和K的大小为n
×
d,随后将Q与转秩后的K相乘,得到矩阵R:其中,R
ij<...

【专利技术属性】
技术研发人员:赵卫东董亮姜学文
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1