【技术实现步骤摘要】
一种基于图注意力网络的表格指标信息抽取方法
[0001]本专利技术属于行业标准信息数字化
,具体涉及基于图注意力网络的表格指标信息抽取方法。
技术介绍
[0002]随着数字化的推进,各行业都在进行数字化建设,其中包括行业标准信息数字化。以往的标准指标抽取工作一般由行业专家对标准文件进行解读后对其进行抽取。由于每年都会有新的标准文件发布或更新,使用人工进行抽取,会耗费大量人力,效率低下。深度学习技术的引入,使信息抽取算法能够从无格式的文本中提取关键信息,但在处理标准文件中存在表格信息时,这些算法无法充分利用表格部分的结构信息和内容信息。
[0003]从标准文件中提取指标的方法大多依靠专家人工标注,但行业内的规范数量非常多,使用人工标注的方法需要耗费大量人力和时间,且人工在进行标注难免会造成差错。另外每个专家对于规范的理解也各不相同,因此最终标注的结果也可能存在差异,甚至可能存在相互矛盾的情况。例如对于同样的指标名称,不同专家给出的划分规则也可能各不相同,划分标准不统一,且容易发生误标或漏标的缺陷。另外,由于轨道交通行业的标准文件数量较多,依靠传统的人工标注方法在效率和准确率方面都已无法满足实际需求,需要一种更加高效的方式来代替人工进行标注指标的抽取与管理。
[0004]传统的信息提取算法,例如BiLSTM
‑
CRF等虽然能够从大段文本中抽取出关键信息,但这类算法通常需要根据关键信息的前后文来进行判断,因此适用于无格式的文本,而所涉及到的是表格信息,表格信息与常规的文本信息的区别在 ...
【技术保护点】
【技术特征摘要】
1.一中基于图注意力网络的表格指标信息抽取方法,其特征在于,分为五大部分:(一)表格预处理;(二)单元格信息编码;(三)邻接列表分析;(四)表格信息关联分析;(五)分类和指标信息计算;其中:所述表格预处理,即对表格信息进行图网络结构化处理,得到表格信息的图网络结构;然后分别对表格中的单元格进行词向量编码和邻接列表分析;所述单元格信息编码,包括对表格中文字进行分词和词嵌入编码,并将编码后结果输入双向循环神经网进行语义特征提取,得到单元格语义信息U
i
;所述邻接列表分析,包括在取得某一单元格的行邻接列表和列邻接列表后,结合词向量编码,得到同行或同列表单元格语义信息U
j
;所述表格信息关联度分析,根据U
i
和U
j
进行表格信息关联度分析,包括:表格信息关联度分析计算和行列信息传递关系分析计算;经过2层关联度计算之后,获得2层的同行或同列的行和列方向的语义信息,其中,第1层的行列语义信息为V
row(1)
和V
col(1)
,第2层的行列语义信息V
row(2)
和V
col(2)
,将第1层的关联度信息作为模型输出的一部分;将第2层的行列语义信息为V
row(2)
和V
col(2)
和单元格语义信息U
i
合并,然后传递至分类输出层输出;分类和指标信息计算,使用线性分类器进行分类,得到当前单元格的指标归类结果。2.根据权利要求1所述的表格指标信息抽取方法,其特征在于,所述的表格信息的图网络结构化处理,是将大小不固定的表格信息视为一张图,表格中的每一个单元格视为图中的一个节点,相邻的单元格视为两个图节点彼此连接,由此将整张表格的信息转化为图信息;对由表格转化而成的图结构进行调整,即对表格中的每一个单元格,将其同行或同列的其他所有单元格都作为其一跳邻居,使每个单元格在经过尽可能短的路径的前提下,获取更多表格内容信息;使用这种规则定义表格的图结构,使得任意两个不在同行或同列的单元格,仅经过二跳距离,即可相互之间传递信息。3.根据权利要求2所述的表格指标信息抽取方法,其特征在于,所述单元格信息编码,是将所有表格的文本信息转换为可计算的向量矩阵;包括单元格的分词、词向量编码;对于单元格的分词,采用jieba分词工具对单元格的文本进行分词;经分词后,使用Word2Vec的方法将各词转化为对应的词向量,并进行拼接;由于每个单元格的信息需要转化为固定大小,每个单元格截取15个词的长度,而每个词的词向量长度为固定的300维;经过单元格信息编码后,整个表格的文本信息被转化为了{[单元格数量]*15*300}的词向量矩阵;随后每个单元格的信息经过循环神经网络BiLSTM,使得每个单元格内的词获取当前单元格内的前后文关系。4.根据权利要求3所述的表格指标信息抽取方法,其特征在于,所述邻接列表分析,具体为:在图网络中,需要依赖于邻接矩阵或是邻接列表对于图的结构进行表示;由于图结构是将任意单元格与其同行或同列的其他单元格直接相连,均作为其一跳邻节点,因此根据每个单元格所处的行列位置,计算得到每个单元格连接的其他单元格;整体算法的输入部分包括表格的文本信息,表格的行数row
num
与列数column
num
,然后按行优先的方式对于每个单元格进行编号,每个单元格D根据自身的index编号求出所在的行列row
i
与col
i
:
row
i
=index div column
num
,col
i
=index mod column
num
,通过遍历行坐标以及列坐标,获得单元格i在行方向的所有邻节点集合以及列方向的所有邻节点集合向的所有邻节点集合最终将计算获得的所有邻节点集合拼接起来,得到行方向邻列表Adj
row
以及列方向邻接列表Adj
col
,供下一步计算时使用。5.根据权利要求4所述的表格指标信息抽取方法,其特征在于,所述表格信息关联分析,表格信息关联度分析计算和行列信息传递关系分析计算;(1)表格信息关联度分析计算:为了能够从周边单元格处获取信息,从而获得上下文的信息补充,帮助判断其最终归属的类别,在图网络中构建一个关联度模块TCM,用以学习两个不同单元格之间语义信息相关度,并根据信息相关度,确定同行同列其他信息对于当前单元格的影响程度,确定每个单元格贡献度的权重,再按获取的权重乘以同行同列其他单元格的信息后进行相加,得到融合了整行或整列其他单元格的文本信息;具体地:构建查询矩阵W
q
与键值矩阵W
k
,其中W
q
与当前所选单元格的语义信息进行计算,而W
k
则与该单元格所在同行或同列的其他单元格进行计算,得到矩阵Q与K:Q
i
=W
q
U
i
,W
q
与W
k
的大小均为d
×
d,Q和K的大小为n
×
d,随后将Q与转秩后的K相乘,得到矩阵R:其中,R
ij<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。