OCR识别方法及其电子设备技术

技术编号：21433108 阅读：27 留言：0更新日期：2019-06-22 12:11

本申请公开一种OCR识别方法，包括步骤：获取业务方数据的待识别图像；将待识别图像输入通用OCR模版识别，得到待识别图像记载的文本信息及其对应的位置信息；其中，通用OCR模板包括检测模型和通用识别模型，通用识别模型通过业务方的各种业务类型的字段图像样本训练得到；将文本信息及其对应位置信息合成结构化识别数据。本申请还提供OCR识别电子设备。本申请的OCR识别方法及其电子设备，能高效快速通过通用OCR模板对待识别对象(例如合同、发票、票据、证件等)的图像进行识别，生成结构化识别数据，完成光学字符到文本信息的识别。本申请中采用的通用OCR模板的训练时间短，适应性强，能适应多种不同的待识别对象，识别准确率高，识别过程整体效率高。

全部详细技术资料下载

【技术实现步骤摘要】
OCR识别方法及其电子设备
本申请涉及图像识别领域，更具体地，涉及一种OCR识别方法及其电子设备。
技术介绍
OCR(OpticalCharacterRecognition，光学字符识别)主要通过对载体上显示的光学字符进行识别，生成文本输出。以纸质文件的OCR识别为例，通过采集纸质文件上的印刷体得到的光学字符，对其进行识别，即可得到文本信息等数据。现有技术中的OCR识别方法往往依赖于识别的对象的特点，进行个性化的模版定制，例如针对票据、报纸、教材等识别的对象，甚至针对不同字号、字体的光学字符识别，都需要重新定制相应的光学字符识别模板，才能采用特定的光学字符识别模板的进行识别。现有技术的OCR识别方法中，定制光学字符识别模板的训练数据量很高，训练时间长，定制识别模板的效率低，很难转移到其他识别对象中应用，定制光学字符识别模板容易受字符变化等因素的影响，OCR识别方法应用的定制光学字符识别模板对对象的依赖性强，影响了OCR识别效率。
技术实现思路
鉴于上述问题，本申请提出了一种OCR识别方法及其电子设备，其能够解决训练时间长，定制识别模板的效率低，难以转移到其他识别对象中应用，定制光学字符识别模板容易受字符变化等因素的影响，定制光学字符识别模板对对象的依赖性强，影响了OCR识别效率的至少一种技术缺陷。本申请提供一种OCR识别方法，包括：获取业务方数据的待识别图像；将所述待识别图像输入通用OCR模版进行识别，得到待识别图像上记载的文本信息及其对应的位置信息；其中，所述通用OCR模板包括检测模型和通用识别模型，所述通用识别模型通过业务方的各种业务类型的字段图像样本训练...

【技术保护点】
1.一种OCR识别方法，OCR是指光学字符识别，其特征在于，包括：获取业务方数据的待识别图像；将所述待识别图像输入通用OCR模版进行识别，得到待识别图像上记载的文本信息及其对应的位置信息；其中，所述通用OCR模板包括检测模型和通用识别模型，所述通用识别模型通过业务方的各种业务类型的字段图像样本训练得到；将所述文本信息及其对应的位置信息合成结构化识别数据。

【技术特征摘要】
1.一种OCR识别方法，OCR是指光学字符识别，其特征在于，包括：获取业务方数据的待识别图像；将所述待识别图像输入通用OCR模版进行识别，得到待识别图像上记载的文本信息及其对应的位置信息；其中，所述通用OCR模板包括检测模型和通用识别模型，所述通用识别模型通过业务方的各种业务类型的字段图像样本训练得到；将所述文本信息及其对应的位置信息合成结构化识别数据。2.根据权利要求1所述的OCR识别方法，其特征在于，还包括：从业务方数据中确定业务方处理的各个业务类型；根据各个业务类型分别获取对应的样本；利用所述样本训练得到通用识别模型。3.根据权利要求2所述的OCR识别方法，其特征在于，所述利用所述样本训练得到通用识别模型的步骤，包括：提取所述样本中训练图像所记载文本信息的文字特征信息；获取文字特征信息对应的训练文本信息，分析文字特征信息与训练文本信息之间的对应关系，得到映射信息；根据所述映射信息构建通用识别模型。4.根据权利要求1所述的OCR识别方法，其特征在于，所述将所述待识别图像输入通用OCR模版进行识别，得到待识别图像上记载的文本信息及其对应的位置信息的步骤之前，还包括：获取预标注字段子图像位置的训练图像；提取所述文本信息的位置特征信息，根据所述位置特征信息构建所述检测模型。5.根据权利要求4所述的OCR识别方法，其特征在于，所述提取所述文本信息的位置特征信息，根据所述位置特征信息构建所述检测模型的步骤，包括：根据文本信息的行高信息对用于训练检测模型的训练图像进行分割，得到训练子图像；将所述训练子图像输入全连接网络模型，通过识别字符数据库中的字符，计算得到在训练子图像的置...

【专利技术属性】
技术研发人员：许洋，刘鹏，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人