一种应用于垂直领域的固定格式文档结构化识别的方法技术

技术编号：37348061 阅读：19 留言：0更新日期：2023-04-22 21:44

本发明专利技术公开了一种应用于垂直领域的固定格式文档结构化识别的方法，属于图像识别技术领域，具体方法包括：步骤一：定义参照区域和目标区域，制作模板文档；从所有文档中选择无形变的图片，进行图片预处理，根据参照区域和目标区域的定义对文档中的参照区域和目标区域进行标注，形成预定好的模板文档格式；步骤二：生成标记数据；步骤三：对参照区域的OCR检测和识别模型进行优化；步骤四：优化目标区域的OCR识别模型；步骤五：通过优化OCR检测和识别模型与优化OCR识别模型对文档进行结构化识别；利用在通用场景训练好的OCR模型并结合模板匹配，自动生成标记数据，对模型进行优化，无需人为标记垂直领域的文档数据。为标记垂直领域的文档数据。为标记垂直领域的文档数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于垂直领域的固定格式文档结构化识别的方法

[0001]本专利技术属于图像识别
，具体是一种应用于垂直领域的固定格式文档结构化识别的方法。

技术介绍

[0002]随着深度学习的发展，人们对OCR(光学字符识别)技术提出了更高的要求，不仅仅识别图片中的文字，更希望OCR技术可以理解图片内容，自动从图片中抽取所需要的信息，对图片进行结构化识别。现实中图片内容排版千奇百怪，内容间的语义关联也各种各样，不同用户对语义信息的需求也不一样，这对于OCR技术是很大的挑战，目前仍没有一个OCR模型可以较好的理解现实即通常场景的图片文档。但在垂直领域中，文档结构化识别应用十分广泛，如身份证、行驶证、发票、合同等结构化识别，原因在于，文档格式固定，不同文档中，位置相同的地方，语义信息相同，例如，所有身份证姓名所在的位置都是一样的。
[0003]对于垂直领域固定格式文档的结构化识别的方法，直接使用通用场景的OCR模型识别效果差，原因在通用的OCR模型在训练时无该垂直领域的文档数据，其次，通用的OCR模型进行文档结构化识别，无法理解文本区域的语义信息，需要编写规则匹配。通常的方案是人为标记目标区域，训练检测和识别模型，在使用时通过检测模型检测感兴趣的区域，再通过识别模型进行OCR识别。但该方案需要人工标记大量的数据，来训练检测和识别模型，因此，为了解决上述问题，本专利技术提供了一种应用于垂直领域的固定格式文档结构化识别的方法。

技术实现思路

[0004]为了解决上述方案存在的问题，本专利技术提供了一种应用...

【技术保护点】

【技术特征摘要】
1.一种应用于垂直领域的固定格式文档结构化识别的方法，其特征在于，具体方法包括：步骤一：定义参照区域和目标区域，制作模板文档；步骤二：生成标记数据；步骤三：对参照区域的OCR检测和识别模型进行优化；步骤四：优化目标区域的OCR识别模型；步骤五：通过优化OCR检测和识别模型与优化OCR识别模型对文档进行结构化识别。2.根据权利要求1所述的一种应用于垂直领域的固定格式文档结构化识别的方法，其特征在于，制作模板文档的方法包括：从所有文档中选择无形变的图片，进行图片预处理，根据参照区域和目标区域的定义对文档中的参照区域和目标区域进行标注，形成预定好的模板文档格式。3.根据权利要求2所述的一种应用于垂直领域的固定格式文档结构化识别的方法，其特征在于，模板文档格式定义为由<key:value>元素组成的字典，其中key为区域的语义含义，value包含区域的位置信息和内容信息，为[x1,y1,x2,y2,content]，(x1,y1)为区域左上角的坐标，(x2,y2)为区域右下角的坐标，content为区域的文本内容。4.根据权利要求1所述的一种应用于垂直领域的固定格式文档结构化识别的方法，其特征在于，生成标记数据的方法包括：获取未标注的文档，通过通用OCR检测和识别模型检测和识别参照区域，检测模型检测文本行所在区域，输出文本区域的左上角和右下角坐标；识别模型识别图片中的文本内容，输出文本，获得文本区域的位置信息和内容信息；与模板文档进行模板匹配确定参照字段，基于OCR检测和识别模型的输出的结果，与模板文档中的文本内容进行匹配...

【专利技术属性】
技术研发人员：李圆法，李钊辉，蔡劲松，赵发君，廖奇，黄洋，王辉，
申请(专利权)人：科讯嘉联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人