一种基于OCR的字符分割方法技术

技术编号：30895979 阅读：27 留言：0更新日期：2021-11-22 23:38

本发明专利技术涉及一种基于OCR的字符分割方法，包括：步骤1：基于OCR技术获取模板字库，模板字库包括标准字符及标准字符的特征数据；步骤2：利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符，得到字符分割结果，人工标记分割结果中的错误项，并更新字符识别模型；步骤3：对待识别字符进行行扫描，基于更新后的字符识别模型对待识别字符进行初始识别，当某个字符的识别结果的得分小于第一阈值，则对该字符进行强制分割；步骤4：归一化处理；步骤5：根据归一化处理后的特征数据将某个字符和标准字符进行匹配，计算得到得分最高的标准字符，基于得分最高的标准字符确定当前字符分割的位置。本发明专利技术能够提高字符分割的精确度。本发明专利技术能够提高字符分割的精确度。本发明专利技术能够提高字符分割的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于OCR的字符分割方法

[0001]本专利技术涉及光学字符识别领域，尤其涉及一种基于OCR的字符分割方法。

技术介绍

[0002]在印刷文字、镭射打标等与光学字符识别相关的领域中，OCR（Optical Character Recognition，光学字符识别）都起着重要作用。目前每种产品上几乎都带有生产批号等类似信息，为了保证产品的可追溯性通常都需要用到OCR 技术。但是在实际打印文字信息时，由于不同的打印环境（运动打印、印刷，不同设备打印出现的不一致），会出现文字的变形、间距变化、尺寸变化等一些情况，当根据传统的OCR字符库中的标准字符训练好模型之后，模型很容易由于上述情况出现将两个字符合并成了一个或将一个字符切割成了两个的情况，继而会导致识别率降低。
[0003]因此，如何提供一种操作简单且能够提高后续字符识别率的基于OCR的字符分割方法是本领域技术人员亟待解决的一个技术问题。

技术实现思路

[0004]本专利技术提供一种基于OCR的字符分割方法，以解决上述技术问题。
[0005]...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的字符分割方法，其特征在于，包括如下步骤：步骤1，数据收集：基于OCR技术获取模板字库，所述模板字库包括标准字符以及所述标准字符的特征数据，所述特征数据至少包括所述标准字符的灰度、尺寸、长宽比、面积重心、面积以及间距；步骤2，人工标记：利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符，得到字符分割结果，人工检查所述分割结果，标记所述分割结果中的错误项，并将所述错误项及其对应的特征数据收录至所述模板字库中，根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重，得到更新后的字符识别模型；步骤3，预分割：对所述待识别字符进行行扫描，基于更新后的字符识别模型对所述待识别字符进行初始识别，当某个字符的识别结果的得分小于第一阈值，则对该字符进行强制分割；步骤4，归一化处理：将经过预分割后的字符的特征数据与所述模板字库中的特征数据进行归一化处理；步骤5，精调分割位置：根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配，计算得到得分最高的标准字符，基于得分最高的所述标准字符确定当前字符分割的位置；步骤2中，所述根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重包...

【专利技术属性】
技术研发人员：秦应化，李安，吴昆，
申请(专利权)人：苏州鼎纳自动化技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人