信息提取的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31090928 阅读:16 留言:0更新日期:2021-12-01 12:53
本公开涉及一种信息提取的方法、装置、电子设备及存储介质,上述方法包括:对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息;根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同;根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域;上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段;以及对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。息提取结果。息提取结果。

【技术实现步骤摘要】
信息提取的方法、装置、电子设备及存储介质


[0001]本公开涉及版面识别
,尤其涉及一种信息提取的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着电子化的发展和广泛应用,很多纸质版文件、证件、票据等以扫描件的方式实现电子化存储。文字识别技术可以实现将扫描件中含有文字的部分进行文字检测,并通过文字识别模型将图片中的文字识别成可编辑的文本信息。在一些应用场景中,例如针对图像中的文字包含用于表征属性信息的键和对应属性取值的参数信息的值构成的键

值对(Key

Value Pairs)的场景,需要通过进行版面分析和处理,来输出所需要的键

值对形式的结构化信息。例如在进行身份证、发票等的文字识别时,需要提取出属性,例如为性别,和对应的参数值:女;以发票类型为航空运输电子客票行程单为例,需要从电子扫描件中提取出票价金额和合计金额的值。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:(1)在基于预设的规则,对文本内容进行所需要内容的提取时,较难建立一个具有完备规则的文字识别模型,并且如果需要提取的字段内容与其他内容很接近时,无法进行区分;(2)此外,在文件、证件或票据等属于机器打印项的部分(例如发票上的金额部分)出现错位时或者某个属性值包含有多行信息(例如身份证中的地址内容包含有多行信息)时,这种场景下,由于文本错位打印的位置非常随机,相关技术中的版面分析方法也无法实现信息的快速且高准确率的提取。
专利
技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种信息提取的方法、装置、电子设备及存储介质。
[0005]第一方面,本公开的实施例提供了一种信息提取的方法。上述方法包括:对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息;根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同;根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域;上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段;以及对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
[0006]根据本公开的实施例,上述文本信息包括:文本位置信息和文本内容信息。其中,上述根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵,包括:获取模板图像中固定字段的内容信息和位置信息;根据上述固定字段的内容信息,从上述待处理图像的文本行中筛选出文本内容信息与上述内容信息一致的锚点文本行;计算上述固定字段的位置信息映射至上述锚点文本行的文本位置信息的坐标变换关系,得到映射
关系矩阵。
[0007]根据本公开的一实施例,上述获取模板图像中固定字段的内容信息和位置信息,包括:从预先设置好固定字段的模板图像中提取上述固定字段的内容信息和位置信息。或者,根据本公开的另一实施例,上述获取模板图像中固定字段的内容信息和位置信息,包括:接收在上述模板图像中设置固定字段的第一设置信息;在接收到上述第一设置信息的情况下,根据上述第一设置信息来提取上述模板图像中固定字段的内容信息和位置信息。
[0008]根据本公开的实施例,上述对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:获取与上述目标识别区域具有位置重叠关系的候选文本行的文本信息;上述文本信息包括:文本位置信息和文本内容信息;以及根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
[0009]根据本公开的一实施例,上述根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:根据上述候选文本行的文本位置信息,计算上述候选文本行与上述目标识别区域的交叠率;确定最高交叠率对应的候选文本行的文本内容信息为参数信息提取结果。或者,根据本公开的另一实施例,上述根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:根据上述候选文本行的文本内容信息,与上述目标属性字段的语义进行格式或数值范围至少一种的正则匹配,得到参数信息提取结果。或者,根据本公开的又一实施例,上述根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:根据上述候选文本行的文本位置信息,计算上述候选文本行与上述目标识别区域的交叠率;根据上述候选文本行的文本内容信息,确定上述候选文本行与上述目标属性字段的语义之间的匹配度;对上述交叠率和上述匹配度进行加权计算,得到候选分值;确定最高候选分值对应的候选文本行的文本内容信息为参数信息提取结果。
[0010]根据本公开的实施例,在对上述目标识别区域内的文本信息进行提取之前,还包括:确定与上述目标识别区域具有位置重叠关系的候选文本行的清晰度是否满足预设要求;在上述候选文本行的清晰度不满足预设要求的情况下,对上述候选文本行进行图像处理,得到清晰度符合预设要求的候选文本行,以对上述清晰度符合预设要求的候选文本行的文本信息进行提取;或者,在上述候选文本行的清晰度不满足预设要求的情况下,基于识别能力与上述候选文本行的清晰度匹配的图像文本识别器或识别模块,对上述候选文本行进行文本信息识别,得到上述候选文本行的文本信息,以对上述候选文本行的文本信息进行提取。
[0011]根据本公开的实施例,在对待处理图像进行文本识别之前,还包括:在上述模板图像中预先设置待识别区域。其中,在一实施例中,在上述模板图像中预先设置待识别区域,包括:接收在上述模板图像中设置待识别区域的第二设置信息,上述第二设置信息包括:区域位置和区域大小;根据上述区域位置和区域大小,生成预设的待识别区域;或者,在另一实施例中,在上述模板图像中预先设置待识别区域,包括:接收在上述模板图像中设置待识别区域的第三设置信息,上述第三设置信息包括:上述待识别区域满足的覆盖条件为涵盖
选中属性字段,选中属性字段的内容;根据上述选中属性字段的内容,确定上述选中属性字段所在的目标位置;基于上述覆盖条件,生成涵盖上述目标位置且具有预留空间的待识别区域,上述预留空间的大小和方位为系统预设值或根据用户的配置得到,以确保能够涵盖错位的目标参数信息或多行目标参数信息,上述目标参数信息为待处理图像中匹配于上述目标属性字段的信息。
[0012]根据本公开的实施例,在得到上述参数信息提取结果之后,还包括:对上述参数信息提取结果的完整性进行校验;在上述参数信息提取结果的完整性校验不通过的情况下,调整上述模板图像中待识别区域的大小,或者,发出调整上述模板图像中待识别区域的提示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取的方法,其特征在于,包括:对待处理图像进行文本识别,得到所述待处理图像中的文本行的文本信息;根据所述文本信息,将所述待处理图像与模板图像进行匹配,得到映射关系矩阵;所述模板图像与所述待处理图像的版式相同;根据所述映射关系矩阵,在所述待处理图像中确定:与所述模板图像中预设的待识别区域相对应的目标识别区域;所述待识别区域涵盖选中属性字段且具有预留空间,所述目标识别区域涵盖与所述选中属性字段相对应的目标属性字段;以及对所述目标识别区域内的文本信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果。2.根据权利要求1所述的方法,其特征在于,所述文本信息包括:文本位置信息和文本内容信息;其中,所述根据所述文本信息,将所述待处理图像与模板图像进行匹配,得到映射关系矩阵,包括:获取模板图像中固定字段的内容信息和位置信息;根据所述固定字段的内容信息,从所述待处理图像的文本行中筛选出文本内容信息与所述内容信息一致的锚点文本行;计算所述固定字段的位置信息映射至所述锚点文本行的文本位置信息的坐标变换关系,得到映射关系矩阵。3.根据权利要求2所述的方法,其特征在于,所述获取模板图像中固定字段的内容信息和位置信息,包括:从预先设置好固定字段的模板图像中提取所述固定字段的内容信息和位置信息;或者;接收在所述模板图像中设置固定字段的第一设置信息;在接收到所述第一设置信息的情况下,根据所述第一设置信息来提取所述模板图像中固定字段的内容信息和位置信息。4.根据权利要求1所述的方法,其特征在于,其中,所述对所述目标识别区域内的文本信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果,包括:获取与所述目标识别区域具有位置重叠关系的候选文本行的文本信息;所述文本信息包括:文本位置信息和文本内容信息;以及根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果。5.根据权利要求4所述的方法,其特征在于,所述根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果,包括:根据所述候选文本行的文本位置信息,计算所述候选文本行与所述目标识别区域的交叠率;确定最高交叠率对应的候选文本行的文本内容信息为参数信息提取结果;或者,根据所述候选文本行的文本内容信息,与所述目标属性字段的语义进行格式或数值范围至少一种的正则匹配,得到参数信息提取结果;或者;根据所述候选文本行的文本位置信息,计算所述候选文本行与所述目标识别区域的交叠率;根据所述候选文本行的文本内容信息,确定所述候选文本行与所述目标属性字段的
语义之间的匹配度;对所述交叠率和所述匹配度进行加权计算,得到候选分值;确定最高候选分值对应的候选文本行的文本内容信息为参数信息提取结果。6.根据权利要求1所述的方法,其特征在于,在对所述目标识别区域内的文本信息进行提取之前,还包括:确定与所述目标识别区域具有位置重叠关系的候选文本行的清晰度是否满足预设要求;在所述候选文本行的清晰度不满足预设要求的情况下,对所述候选文本行进行图像处理,得到清晰度符合预设要求的候选文本行,以对所述清晰度符合预设要求的候...

【专利技术属性】
技术研发人员:唐铭蔚周柏村
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1