用于文档图像识别的关键信息抽取方法及装置制造方法及图纸

技术编号:35444985 阅读:22 留言:0更新日期:2022-11-03 11:57
本发明专利技术提供一种用于文档图像识别的关键信息抽取方法及装置,该方法包括:基于OCR识别结果,对每个键确定预设数量的候选键值;根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分;在所述候选路径总评分最高的情况下,确定每个键选取的目标键值,以得到对应的信息抽取结果;其中,每个键选取对应的候选键值时的评分,至少包括键与候选键值的位置关系确定的评分值。该方法有效避免了类似基于规则的信息抽取方法中固定关键词带来的易出错问题。同时,该方法综合考虑所有候选键值选取情况,有效利用了关键信息之间的相互联系以及互斥性,从而具有较高的准确率,可解决相似实体信息抽取的全局优化问题。可解决相似实体信息抽取的全局优化问题。可解决相似实体信息抽取的全局优化问题。

【技术实现步骤摘要】
用于文档图像识别的关键信息抽取方法及装置


[0001]本专利技术涉及人工智能领域,尤其涉及一种用于文档图像识别的关键信息抽取方法及装置。

技术介绍

[0002]文本或者文档图像识别后需要对识别到内容的关键信息进行抽取。关键信息抽取方法一类是基于规则的方法,即通过正则表达或者编辑距离寻找对应的关键信息。一类是基于机器学习或者深度学习的方法进行实体识别,输出与关键词对应的键值及位置信息。
[0003]基于规则的信息抽取方法,往往针对与关键词固定或者特征容易描述的情况下实施键值抽取,方法简单,但容易出错。基于bert或者transformer等深度学习模型的方法,对于每个键值都给出一个预测结果,但是没有从整个page或者文档层面进行综合度量,忽略了关键信息之间的相互联系以及互斥性。无法直接在模型层面解决同一实体类别的区分问题,如付款方和收款方,二者属于同一个实体,但需要区分抽取。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术提供一种用于文档图像识别的关键信息抽取方法及装置。
[0005]本专利技术提供一种用于文档图像识别的关键信息抽取方法,包括:基于OCR(Optical Character Recognition,光学字符识别)识别结果,对每个键确定预设数量的候选键值;根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分;在所述候选路径总评分最高的情况下,确定每个键选取的目标键值,以得到对应的信息抽取结果;其中,每个键选取对应的候选键值时的评分,至少包括键与候选键值的位置关系确定的评分值。
[0006]根据本专利技术提供的一种用于文档图像识别的关键信息抽取方法,所述对每个键确定预设数量的候选键值,包括:对于每个键,根据键与键值的矩形框距离,在每个键四周找到矩形框距离最近的预设数量的候选键值;其中,所述矩形框距离的计算方式包括,对于键与键值的矩形框欧式距离最近的两点,根据所述两点横坐标和纵坐标差值的较小者确定。
[0007]根据本专利技术提供的一种用于文档图像识别的关键信息抽取方法,所述根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分,包括:根据几何特征分数、OCR识别分数以及实体识别分数,确定每个键选取对应的候选键值时的评分;根据所有键选取对应的候选键值时的评分,确定所有键选取候选键值的候选路径总评分;其中,所述几何特征分数为根据键与候选键值的位置关系确定的评分值;所述OCR识别分数为根据OCR识别的后验置信度确定的评分值;所述实体识别分数为根据实体识别模型输出的后验概率确定的评分值。
[0008]根据本专利技术提供的一种用于文档图像识别的关键信息抽取方法,所述根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分,包括:对于没有
共有候选键值的每个键,计算选取对应的候选键值时的评分;对于有共有候选键值的每个键,按照键的固定顺序优先级分别进行候选键值的选取,并在选择过程中不再选择已被其他键选取的候选键值;其中,对于有共有候选键值的键,若无候选键值可选,则候选键值评分为0。
[0009]根据本专利技术提供的一种用于文档图像识别的关键信息抽取方法,所述根据几何特征分数、OCR识别分数以及实体识别分数,确定每个键选取对应的候选键值时的评分之前,还包括:
[0010]根据如下公式确定几何特征分数;
[0011][0012]其中,其中,d为选取的候选键值矩形框与键的矩形框之间的距离,d1、d2…
d
i
为每个候选键值矩形框与键的矩形框之间的距离;h1、h2分别为键、选取的候选键值文字对应的矩形框高度。
[0013]根据本专利技术提供的一种用于文档图像识别的关键信息抽取方法,所述根据几何特征分数、OCR识别分数以及实体识别分数,确定每个键选取对应的候选键值时的评分之前,还包括:
[0014]根据如下公式确定OCR识别分数;
[0015][0016]其中,R为选取的候选键值的OCR识别分数,m为选取的候选键值的字符数,f
j
为选取的候选键值第j个字符识别的后验置信度。
[0017]本专利技术还提供一种用于文档图像识别的关键信息抽取装置,包括:初步提取模块,用于基于光学字符识别OCR识别结果,对每个键确定预设数量的候选键值;评分处理模块,用于根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分;精确提取模块,用于在所述候选路径总评分最高的情况下,确定每个键选取的目标键值,以得到对应的信息抽取结果;其中,每个键选取对应的候选键值时的评分,至少包括键与候选键值的位置关系确定的评分值。
[0018]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述用于文档图像识别的关键信息抽取方法。
[0019]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述用于文档图像识别的关键信息抽取方法。
[0020]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述用于文档图像识别的关键信息抽取方法。
[0021]本专利技术提供的用于文档图像识别的关键信息抽取方法及装置,通过候选路径可设置不同的键与候选键值的组合,并在候选路径总评分最高的情况下,确定每个键选取的目标键值,有效避免了类似基于规则的信息抽取方法中固定关键词带来的易出错问题。同时,该方法无需对每个键值都给出一个预测结果,而是综合考虑所有候选键值选取情况,有效利用了关键信息之间的相互联系以及互斥性,从而具有较高的准确率,可解决相似实体信
息抽取的全局优化问题。
附图说明
[0022]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术提供的用于文档图像识别的关键信息抽取方法的流程示意图;
[0024]图2是本专利技术提供的键与候选键值关系的示意图;
[0025]图3是本专利技术提供的共有键值两种情况的示意图;
[0026]图4是本专利技术提供的用于文档图像识别的关键信息抽取装置的结构示意图;
[0027]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0028]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]下面结合图1

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于文档图像识别的关键信息抽取方法,其特征在于,包括:基于光学字符识别OCR识别结果,对每个键确定预设数量的候选键值;根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分;在所述候选路径总评分最高的情况下,确定每个键选取的目标键值,以得到对应的信息抽取结果;其中,每个键选取对应的候选键值时的评分,至少包括键与候选键值的位置关系确定的评分值。2.根据权利要求1所述的用于文档图像识别的关键信息抽取方法,其特征在于,所述对每个键确定预设数量的候选键值,包括:对于每个键,根据键与键值的矩形框距离,在每个键四周找到矩形框距离最近的预设数量的候选键值;其中,所述矩形框距离的计算方式包括,对于键与键值的矩形框欧式距离最近的两点,根据所述两点横坐标和纵坐标差值的较小者确定。3.根据权利要求1所述的用于文档图像识别的关键信息抽取方法,其特征在于,所述根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分,包括:根据几何特征分数、OCR识别分数以及实体识别分数,确定每个键选取对应的候选键值时的评分;根据所有键选取对应的候选键值时的评分,确定所有键选取候选键值的候选路径总评分;其中,所述几何特征分数为根据键与候选键值的位置关系确定的评分值;所述OCR识别分数为根据OCR识别的后验置信度确定的评分值;所述实体识别分数为根据实体识别模型输出的后验概率确定的评分值。4.根据权利要求1所述的用于文档图像识别的关键信息抽取方法,其特征在于,所述根据每个键选取对应的候选键值的评分,确定所有键选取候选键值的候选路径总评分,包括:对于没有共有候选键值的每个键,计算选取对应的候选键值时的评分;对于有共有候选键值的每个键,按照键的固定顺序优先级分别进行候选键值的选取,并在选择过程中不再选择已被其他键选取的候选键值;其中,对于有共有候选键值的键,若无候选键值可选,则候选键值评分为0。5.根据权利要求3所述的用于文档图像识别的关键信息抽取方...

【专利技术属性】
技术研发人员:刘长松王言伟李捷张玉琦张瑞雪张琛
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1