信息提取的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31090928 阅读：16 留言：0更新日期：2021-12-01 12:53

本公开涉及一种信息提取的方法、装置、电子设备及存储介质，上述方法包括：对待处理图像进行文本识别，得到上述待处理图像中的文本行的文本信息；根据上述文本信息，将上述待处理图像与模板图像进行匹配，得到映射关系矩阵；上述模板图像与上述待处理图像的版式相同；根据上述映射关系矩阵，在上述待处理图像中确定：与上述模板图像中预设的待识别区域相对应的目标识别区域；上述待识别区域涵盖选中属性字段且具有预留空间，上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段；以及对上述目标识别区域内的文本信息进行提取，得到用于与上述目标属性字段匹配的参数信息提取结果。息提取结果。息提取结果。

全部详细技术资料下载

【技术实现步骤摘要】
信息提取的方法、装置、电子设备及存储介质

[0001]本公开涉及版面识别
，尤其涉及一种信息提取的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着电子化的发展和广泛应用，很多纸质版文件、证件、票据等以扫描件的方式实现电子化存储。文字识别技术可以实现将扫描件中含有文字的部分进行文字检测，并通过文字识别模型将图片中的文字识别成可编辑的文本信息。在一些应用场景中，例如针对图像中的文字包含用于表征属性信息的键和对应属性取值的参数信息的值构成的键
‑
值对(Key
‑
Value Pairs)的场景，需要通过进行版面分析和处理，来输出所需要的键
‑
值对形式的结构化信息。例如在进行身份证、发票等的文字识别时，需要提取出属性，例如为性别，和对应的参数值：女；以发票类型为航空运输电子客票行程单为例，需要从电子扫描件中提取出票价金额和合计金额的值。
[0003]在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下技术问题：(1)在基于预设的规则，对文本内容进行所需要内容的提取时，较难建立一个具有完备规则的文字识别模型，并且如果需要提取的字段内容与其他内容很接近时，无法进行区分；(2)此外，在文件、证件或票据等属于机器打印项的部分(例如发票上的金额部分)出现错位时或者某个属性值包含有多行信息(例如身份证中的地址内容包含有多行信息)时，这种场景下，由于文本错位打印的位置非常随机，相关技术中的版面分析方法也无法实现信息的快速且高准确率的提取。
专利...

【技术保护点】

【技术特征摘要】
1.一种信息提取的方法，其特征在于，包括：对待处理图像进行文本识别，得到所述待处理图像中的文本行的文本信息；根据所述文本信息，将所述待处理图像与模板图像进行匹配，得到映射关系矩阵；所述模板图像与所述待处理图像的版式相同；根据所述映射关系矩阵，在所述待处理图像中确定：与所述模板图像中预设的待识别区域相对应的目标识别区域；所述待识别区域涵盖选中属性字段且具有预留空间，所述目标识别区域涵盖与所述选中属性字段相对应的目标属性字段；以及对所述目标识别区域内的文本信息进行提取，得到用于与所述目标属性字段匹配的参数信息提取结果。2.根据权利要求1所述的方法，其特征在于，所述文本信息包括：文本位置信息和文本内容信息；其中，所述根据所述文本信息，将所述待处理图像与模板图像进行匹配，得到映射关系矩阵，包括：获取模板图像中固定字段的内容信息和位置信息；根据所述固定字段的内容信息，从所述待处理图像的文本行中筛选出文本内容信息与所述内容信息一致的锚点文本行；计算所述固定字段的位置信息映射至所述锚点文本行的文本位置信息的坐标变换关系，得到映射关系矩阵。3.根据权利要求2所述的方法，其特征在于，所述获取模板图像中固定字段的内容信息和位置信息，包括：从预先设置好固定字段的模板图像中提取所述固定字段的内容信息和位置信息；或者；接收在所述模板图像中设置固定字段的第一设置信息；在接收到所述第一设置信息的情况下，根据所述第一设置信息来提取所述模板图像中固定字段的内容信息和位置信息。4.根据权利要求1所述的方法，其特征在于，其中，所述对所述目标识别区域内的文本信息进行提取，得到用于与所述目标属性字段匹配的参数信息提取结果，包括：获取与所述目标识别区域具有位置重叠关系的候选文本行的文本信息；所述文本信息包括：文本位置信息和文本内容信息；以及根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取，得到用于与所述目标属性字段匹配的参数信息提取结果。5.根据权利要求4所述的方法，其特征在于，所述根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取，得到用于与所述目标属性字段匹配的参数信息提取结果，包括：根据所述候选文本行的文本位置信息，计算所述候选文本行与所述目标识别区域的交叠率；确定最高交叠率对应的候选文本行的文本内容信息为参数信息提取结果；或者，根据所述候选文本行的文本内容信息，与所述目标属性字段的语义进行格式或数值范围至少一种的正则匹配，得到参数信息提取结果；或者；根据所述候选文本行的文本位置信息，计算所述候选文本行与所述目标识别区域的交叠率；根据所述候选文本行的文本内容信息，确定所述候选文本行与所述目标属性字段的
语义之间的匹配度；对所述交叠率和所述匹配度进行加权计算，得到候选分值；确定最高候选分值对应的候选文本行的文本内容信息为参数信息提取结果。6.根据权利要求1所述的方法，其特征在于，在对所述目标识别区域内的文本信息进行提取之前，还包括：确定与所述目标识别区域具有位置重叠关系的候选文本行的清晰度是否满足预设要求；在所述候选文本行的清晰度不满足预设要求的情况下，对所述候选文本行进行图像处理，得到清晰度符合预设要求的候选文本行，以对所述清晰度符合预设要求的候...

【专利技术属性】
技术研发人员：唐铭蔚，周柏村，
申请(专利权)人：京东科技控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人