本发明专利技术涉及关键信息提取技术领域,尤其是一种基于搜索的关键信息提取方法,由
【技术实现步骤摘要】
一种基于搜索的关键信息提取方法
[0001]本专利技术涉及关键信息提取
,尤其是一种基于搜索的关键信息提取方法
。
技术介绍
[0002]随着近年来深度学习技术的飞速发展,基于深度学习的字符检测和字符识别技术得到了广泛的应用,例如在文档识别
、
街景文字识别等方面都取得了优异的成果
。
关键信息提取技术基于字符检测和识别方法,对图片的结构化匹配提出了新的要求,不仅需要检测识别出图片中字符的位置和内容,并且要得到图片中字段名和字段值的对应关系,这些对应关系在金融
、
医疗
、
建筑工程及其他需要采集打印纸质票据的业务场景中非常重要
。
[0003]现有的关键信息提取方法是利用
NER(
命名实体识别
)
的方法对文本序列进行标注,从标注结果中获取实体类别,这些方法忽视了票据中键字段对于值字段类别区分的帮助
。
技术实现思路
[0004]本专利技术的目的是根据上述现有技术的不足,提供了一种基于搜索的关键信息提取方法,以关键字段为中心,在其局部范围搜索最佳匹配的关键信息提取,充分利用键值对的关系帮助模型区分相似字段,从而使得模型具有更强的鲁棒性
。
[0005]本专利技术目的实现由以下技术方案完成:
[0006]步骤1:对于待提取关键信息的票据,预先统计其要提取的关键信息,确定待搜索关键字段,并将其构建为一个查询表
。
[0007]步骤2,构建多模态特征提取模块,同时对图片,文本以及位置三种模态信息进行建模,其中使用特征金字塔形式的
Resnet
以及
ROIAlign
方法来对图片提取特征,并通过平均池化与最大池化分别提取不同尺度信息,使得信息尽可能被保留,使用嵌入层来对文本和检测框进行建模,并在该模块最后使用多头注意力来对三种模态进行交互
。
[0008]步骤3,使用基于
Transformer
实现的空间布局感知模块来加强字段间的相对关系,并通过遮盖视觉和文本特征来加强模型的空间布局感知能力
。
[0009]步骤4,通过上述步骤的结果来定义图网络的节点
、
边,通过以待搜索字段为中心,
R
为半径,确定其搜索范围,从而构建图卷积的邻接矩阵
。
[0010]步骤5,通过使用图卷积操作来使得各个文本节点之间充分交互,并最终将交互结果送至全连接层中进行回归预测
。
[0011]其中,为尽可能保留原始信息,在特征提取器中,使用最大池化和平均池化两个层来提取不同尺度信息
。
[0012]其中,在空间布局感知模块中,通过遮盖视觉和文本特征来加强模型的空间布局感知能力
。
[0013]其中,通过以待搜索字段为中心,
R
为半径,构建图卷积的邻接矩阵,确定图卷积的交互范围
。
[0014]本专利技术的优点是:利用票据图片中键值对强关联的先验信息,帮助模型区分相似字段,显著提升模型性能
。
附图说明
[0015]图1为本专利技术实施例基于搜索的关键信息提取方法流程图;
[0016]图2为本专利技术的一个实施例中的获得待搜索字段的示意图;
[0017]图3为本专利技术的一个实施例中的上下层特征融合模块示意图;
[0018]图4为本专利技术的一个实施例中的空间布局感知模块示意图
。
具体实施方式
[0019]以下通过实施例对本专利技术特征及其它相关特征作进一步详细说明,以便于同行业技术人员的理解:
[0020]实施例:如图1所示,在本实施例中的基于搜索的关键信息提取方法中,以纸质票据为例进行说明,该纸质票据为常见的高速公路通用机打发票,其包含了高速公路的出入口站过路信息
、
车型
、
金额等关键信息
。
[0021]以该纸质票据为说明,本实施例中的关键信息的提取过程包括如下步骤:
[0022]步骤1:对于待提取关键信息的票据,预先统计其要提取的关键信息,确定待搜索关键字段,并将其构建为一个查询表
。
[0023]步骤2:通过查询表获得待搜索字段
。
[0024]如图2所示,将待提取关键信息的票据输入到预训练好的检测和识别模型中,获得该票据的检测和识别结果,并通过与查询表互相匹配来确定该票据的待搜索字段
。
[0025]步骤3:将票据的检测与识别结果输入到多模态特征提取模块,包括图片,文本以及位置三种模态信息,其中:
[0026]步骤3‑1:对于图片,经过
Resnet
特征提取器后再使用
ROIAlign
方法得到每个文本区域的视觉特征
F
visual
。
如图3所示,图片经过
Resnet
网络后分别得到
C1
,
C2
,
C3
,
C4
不同尺度的特征图,然后经过下采样过程后相加,再经过1×1卷积得到最终的特征向量
。
其中,为减少下采样过程中的信息丢失,不同层的特征图将分别经过平均池化和平均池化来得到不同尺度的信息
。
[0027]步骤3‑2:对于文本和检测框,采用嵌入层将其转换至隐藏特征空间中,分别用
F
text
和
F
box
来表示;
[0028]步骤3‑3:在该模块的最后,进一步使用多头注意力来使得三种模态信息进行交互,并经过池化层后得到最终的节点表示
F。
[0029]步骤4:如图4所示,获得各个文本段节点表示后,采用基于
Transformer
实现的空间布局感知模块来加强字段间的相对关系,具体做法为:
[0030]步骤4‑1:添加位置编码至节点表示
F
中,其中节点编码计算公式如下:
[0031][0032][0033]其中
pos
表示字符在序列中的位置,
i
代表位置向量
PE
中的第
i
个维度,
d
model
表示位
置编码向量的维度
。
[0034]步骤4‑2:在计算自注意力时,将某个节点的视觉和文本特征遮盖掉,保留归一化的位置信息作为引导,利用其余的节点特征来推测该节点的语义特征,以此来使得模型感知到空间布局的信息
。
[0035]步骤5:通过步骤2和步骤4的结果,本实施例可以进一步定义图网络的边和节点,其中,边的定义公式如下:
[0036]F
Relate
=
[a
11
,a
21
,
…
...
【技术保护点】
【技术特征摘要】
1.
一种基于搜索的关键信息提取方法,用于对载体上的关键信息进行提取,其特征在于:包括以下步骤:
S1、
对于待提取关键信息的载体,预先统计其要提取的关键信息,确定待搜索关键字段,并将其构建为一个查询表;
S2、
通过所述查询表获得待搜索字段,将待提取关键信息的载体输入到预训练完成的检测和识别模型中,获得该载体的检测和识别结果,并通过与所述查询表匹配来确定该载体的待搜索字段;
S3、
将所述载体的检测和识别结果输入值多模态特征提取模块,该多模态特征提取模块包括提取载体上的图片
、
文本以及位置三种模态信息;
S4、
获得各个文本段节点表示后,采用基于
Transformer
实现的空间布局感知模块加强字段间的相对关系;
S5、
通过结合
S2
和
S4
的结果,定义图网络的边和节点,通过以所述待搜索字段为中心,
【专利技术属性】
技术研发人员:徐国栋,李斌,薛向阳,唐宏华,郑腰华,卢伟,冯江宇,蒋孝云,章东方,李贤庆,李厚荣,
申请(专利权)人:中铁二十四局集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。