一种关键信息抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37820005 阅读:9 留言:0更新日期:2023-06-09 09:53
本公开提供了一种关键信息抽取方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及智能搜索、计算机视觉、深度学习等技术领域。具体实现方案为:获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;从预先配置的多个文件类型对应的流水线中,确定影像件的文件类型对应的目标流水线;使用目标流水线包括的算子,对光学字符识别结果进行处理,得到目标字段信息对应的抽取结果。得到目标字段信息对应的抽取结果。得到目标字段信息对应的抽取结果。

【技术实现步骤摘要】
一种关键信息抽取方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,尤其涉及智能搜索、计算机视觉、深度学习等


技术介绍

[0002]常见的影像件可以大致分为3类:表格、表单和文本。而每类影像件又可以细分很多的小类别,影像件种类多样,版式丰富。

技术实现思路

[0003]本公开提供了一种关键信息抽取方法、装置、电子设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种关键信息抽取方法,包括:
[0005]获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;
[0006]从预先配置的多个文件类型对应的流水线中,确定所述影像件的文件类型对应的目标流水线;
[0007]使用所述目标流水线包括的算子,对所述光学字符识别结果进行处理,得到所述目标字段信息对应的抽取结果。
[0008]根据本公开的第二方面,提供了一种关键信息抽取装置,包括:
[0009]获取模块,用于获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;
[0010]确定模块,用于从预先配置的多个文件类型对应的流水线中,确定所述影像件的文件类型对应的目标流水线;
[0011]处理模块,用于使用所述目标流水线包括的算子,对所述光学字符识别结果进行处理,得到所述目标字段信息对应的抽取结果。
[0012]根据本公开的第三方面,提供了一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与所述至少一个处理器通信连接的存储器;其中,
[0015]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述关键信息抽取方法。
[0016]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述关键信息抽取方法。
[0017]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述关键信息抽取方法。
[0018]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0020]图1是根据本公开实施例提供的关键信息抽取方法的一种流程示意图;
[0021]图2a是根据本公开实施例提供的文档类影像件的一种示意图;
[0022]图2b是根据本公开实施例提供的具有印章的影像件的一种示意图;
[0023]图2c是根据本公开实施例提供的表格类影像件的一种示意图;
[0024]图2d是根据本公开实施例提供的表单类影像件的一种示意图;
[0025]图3是根据本公开实施例提供的抽取模型训练方法的一种流程示意图;
[0026]图4是根据本公开实施例提供的抽取模型的训练和在线推理的一种流程示意图;
[0027]图5是根据本公开实施例提供的策略召回算子的处理过程的一种示意图;
[0028]图6是根据本公开实施例提供的印章判定逻辑过程的一种示意图;
[0029]图7是根据本公开实施例提供的缺失方章的图片的一种示意图;
[0030]图8是根据本公开实施例提供的实体高亮坐标计算算子的处理过程的一种示意图;
[0031]图9是根据本公开实施例提供的认证框架的一种结构示意图;
[0032]图10是根据本公开实施例提供的关键信息抽取装置的一种结构示意图;
[0033]图11是用来实现本公开实施例的关键信息抽取方法的电子设备的第一种框图;
[0034]图12是用来实现本公开实施例的关键信息抽取方法的电子设备的第二种框图。
具体实施方式
[0035]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0036]常见的影像件有图片和PDF扫描件等,这些影像件可以大致分为3类:表格、表单和文档。每类影像件又可以细分很多的小类别,影像件种类多样,版式丰富。
[0037]表格:有明显的行、列信息,有表头信息等。
[0038]表单:没有复杂的表格结构,表单的单元格中含有大段文本内容,表单外也可能有关键信息,光学字符识别(Optical Character Recognition,OCR)得到的文本长度通常不超过1000个字符。
[0039]文档:由多张图片构成,OCR得到的文本长度通常超过1000个字符,如:合同、协议等文档。
[0040]影像件中的关键信息包括关键字段、关键值(key

value,kv),在抽取上述影像件中的kv时,存在如下痛点:
[0041]1)材料复杂度高,对抽取kv的模型要求高。
[0042]如上述,影像件种类多样,版式丰富,如不同类型的发票等。此外,对需要抽取的关键字段的客制化占比高,并且,在审核场景中对模型抽取kv的效果和性能均有高标准要求。
[0043]在效果上的要求:按照平均抽取kv的准确率计算,最低准确率为80%,准确率达到90%才算稳定,这其中还是包括光学字符识别(Optical Character Recognition,OCR)的错误。
[0044]在性能上的要求:单次请求模型抽取kv的响应时间控制在100毫秒(ms)级。
[0045]2)模型研发成本高。
[0046]用于抽取一个材料的kv的模型开发过程包括模型选型、建模、后处理、高亮处理等。目前,一个材料对应的模型的平均开发时间大约4人天左右。如果材料的复杂度高,且对kv的抽取效果要求高,模型的开发时间大约8人天左右。
[0047]3)模型选型以及调优不便。
[0048]抽取kv的模型很多,并且抽取kv的方案也很多,而材料种类多样,版式丰富。为了提高模型对不同材料的kv抽取效果,大量的时间需要消耗在模型选型和模型调优上,尤其是消耗在后期的优化的时间。
[0049]为降低研发成本,保证对复杂材料的kv抽取的效果和性能,本公开实施例提供了一种关键信息抽取方法,如图1所示,包括如下步骤:
[0050]步骤S11,获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;
[0051]步骤S12,从预先配置多个文件类型对应的流水线中,确定所述影像件的文件类型对应的目标流水线;
[0052]步骤S13,使用所述目标流水线包括的算子,对所述光学字符识别结果进行处理,得到所述目标字段信息对应的抽取结果。...

【技术保护点】

【技术特征摘要】
1.一种关键信息抽取方法,包括:获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;从预先配置的多个文件类型对应的流水线中,确定所述影像件的文件类型对应的目标流水线;使用所述目标流水线包括的算子,对所述光学字符识别结果进行处理,得到所述目标字段信息对应的抽取结果。2.根据权利要求1所述的方法,其中,当所述影像件的文件类型为文档时,所述获取影像件的光学字符识别结果的步骤,包括:对影像件进行光学字符识别,获得所述影像件中的每个文本、每个文本的概率、每个文本坐标和印章检测结果;所述每个文本、每个文本的概率、每个文本坐标和印章检测结果为光学字符识别结果;其中,所述印章检测结果包括以下至少一项:印章的位置,所述印章内的文本,所述印章的形状。3.根据权利要求1所述的方法,其中,当所述影像件的文件类型为表格时,所述获取影像件的光学字符识别结果的步骤,包括:对影像件进行光学字符识别,获得所述影像件中表格内的每个单元格内的文本、每个单元格的行列信息和表格外的文本,所述每个单元格内的文本、每个单元格的行列信息和表格外的文本为光学字符识别结果。4.根据权利要求1所述的方法,其中,当所述影像件的文件类型为表单时,所述获取影像件的光学字符识别结果的步骤,包括:对影像件进行光学字符识别,获得所述影像件中表单内的每个单元格内的文本、每个单元格的行列信息、表单外的文本和印章检测结果;对每个单元格内的文本进行拼接,所述每个单元格内拼接后的文本、每个单元格的行列信息、表格外的文本和印章检测结果为光学字符识别结果;其中,所述印章检测结果包括以下至少一项:印章的位置,所述印章内的文本,所述印章的形状。5.根据权利要求1所述的方法,其中,所述多个文件类型包括表格、表单和文档;所述表格对应的流水线包括以下至少一种算子:表格型数据结构的构建算子,表格型数据结构的合并算子,行列提取算子,单元格定位算子,实体高亮坐标计算算子;所述表单和文档对应的流水线包括以下至少一种算子:文本坐标对齐算子,模型抽取算子,策略召回算子,业务格式化算子,实体高亮坐标计算算子。6.根据权利要求5所述的方法,其中,当所述目标流水线包括文本坐标对齐算子时,使用所述文本坐标对齐算子,按照以下步骤对所述光学字符识别结果进行处理:将所述光学字符识别结果中的单个字符和单个字符的坐标进行对齐处理;其中,对齐处理包括以下至少一种处理:去除所述光学字符识别结果中的无效字符;将标点符号转换为预设语种的标点符号。7.根据权利要求5所述的方法,其中,当所述目标字段信息包括第一目标关键字段以及目标统一资源定位符,所述目标流水线包括模型抽取算子时,所述第一目标关键字段为抽
取模型需要抽取的关键字段,所述目标统一资源定位符为抽取模型在线推理服务的统一资源定位符,所述目标统一资源定位符处的抽取模型为第一目标抽取模型,使用所述模型抽取算子,按照以下步骤对所述光学字符识别结果进行处理:将所述光学字符识别结果转换为目标文档,所述目标文档为所述第一目标抽取模型支持的数据格式的文档;将所述目标文档和所述第一目标关键字段输入所述第一目标抽取模型,得到所述第一目标关键字段对应的每个实体的概率;将最大概率的实体作为所述第一目标关键字段对应的第一目标关键值。8.根据权利要求7所述的方法,其中,所述方法还包括:将所述第一目标抽取模型进行动态图转静态图,得到第二目标抽取模型;所述将所述目标文档和所述第一目标关键字段输入所述第一目标抽取模型,得到所述第一目标关键字段对应的每个实体的概率的步骤,包括:将所述目标文档和所述第一目标关键字段输入第二目标抽取模型,得到所述第一目标关键字段对应的每个实体的概率。9.根据权利要求7所述的方法,其中,所述抽取模型通过以下步骤训练得到:获取样本文本集,所述样本文本集包括带标注的多个样本文本;使用网络搜索方法,确定预设数量组模型参数;使用带标注的所述多个样本文本,对已使用每组模型参数的抽取模型分别进行训练;从训练得到的预设数量个抽取模型中,确定用于抽取关键信息的抽取模型。10.根据权利要求9所述的方法,其中,所述从训练得到的预设数量个抽取模型中,确定用于抽取关键信息的抽取模型的步骤,包括:确定训练得到的每个抽取模型的召回率和精确率;基于训练得到的每个抽取模型的召回率和精确率,确定训练得到的每个抽取模型的第一测量指标,其中,所得到的第一测量指标中最大的第一测量指标作为第二测量指标;将所述第二测量指标对应的抽取...

【专利技术属性】
技术研发人员:陈禹燊方文浩韩光耀岳洪达许海洋王艺苏磊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1