一种信息抽取方法、装置、电子设备以及可读存储介质制造方法及图纸

技术编号：38202234 阅读：32 留言：0更新日期：2023-07-21 16:45

本申请的实施例提出了一种信息抽取方法、装置、电子设备以及可读存储介质。信息抽取方法包括：获取原始图像；对原始图像进行解析，得到原始图像的文本框；对文本框建立图，其中，以每一个文本框作为节点，基于文本框的空间位置，并以空间位置的四邻域作为每一个节点的边；为每一个节点分配属性信息；依据节点的属性信息以及边的信息对文本框进行配对，并得到配对结果。本实施例可以应用在对银行流水等信息抽取较为困难的应用场景，与相关技术中采用PDF进行信息抽取相比，本申请实施例可以实现全字段抽取，与相关技术中采用深度学习的方式进行信息抽取相比，本申请实施例可以较为快捷的对信息进行抽取，其所花费的时间也较短。其所花费的时间也较短。其所花费的时间也较短。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息抽取方法、装置、电子设备以及可读存储介质

[0001]本申请涉及图像信息处理领域，尤其涉及一种信息抽取方法、装置、电子设备以及可读存储介质。

技术介绍

[0002]相关技术中，PDF信息抽取被广泛应用于图像信息的文字抽取，图像识别等。但是，如果原始图像信息的结构过于复杂，则会导致PDF所需要识别的结构过于复杂，进而使得从PDF中抽取文本，图形和表格等信息的难度也相应增加，而且从PDF中抽取的文本只具有空间位置信息，无法对有效信息进行输出。针对银行流水等复杂的应用场景，由于银行流水中用户信息的分布多样，有表格形态的，也有包含多行的，或者是竖式分布的等等，因此，采用PDF对银行流水的信息进行抽取的难度较大。
[0003]另一方面，也有基于深度学习方法对银行流水的信息进行抽取，但是，在信息抽取的过程中需要大量标注数据，标注成本较高。对于银行流水等实际应用场景，由于银行流水的数据量较小，模型训练困难，采用深度学习方法对银行流水的信息进行抽取所花费的时间较长。

技术实现思路

[0004]有鉴于此，本申请...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法，其特征在于，所述方法包括：获取原始图像；对所述原始图像进行解析，得到所述原始图像的文本框；对所述文本框建立图，其中，以每一个所述文本框作为节点，基于所述文本框的空间位置，并以所述空间位置的四邻域作为每一个所述节点的边；为每一个所述节点分配属性信息；依据所述节点的属性信息以及所述边的信息对所述文本框进行配对，并得到配对结果。2.根据权利要求1所述的一种信息抽取方法，其特征在于，所述对所述原始图像进行解析，得到所述原始图像的文本框，包括：抽取所述原始图像的文字信息，对所述文字信息进行集合，以得到所述文本框。3.根据权利要求1所述的一种信息抽取方法，其特征在于，所述属性信息至少包括第一属性、第二属性和第三属性，其中，所述第二属性包括预设分隔符，所述第一属性和所述第三属性均不包括所述预设分隔符。4.根据权利要求3所述的一种信息抽取方法，其特征在于，所述依据所述节点的属性信息以及所述边的信息对所述文本框进行配对，并得到配对结果，包括：当相邻的两个所述节点均为所述第一属性时，将两个所述节点进行合并；当相邻的两个所述节点均为所述第三属性时，将两个所述节点进行合并。5.根据权利要求4所述的一种信息抽取方法，其特征在于，所述依据所述节点的属性信息以及所述边的信息对所述文本框进行配对，并得到配对结果，还包括：依据所述边的信息，当第二属性的节点与第一属性的节点的距离小于第二属性的节点与第三属性的节点...

【专利技术属性】
技术研发人员：孙刈凡，杨青，
申请(专利权)人：度小满科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人