OCR识别方法及装置制造方法及图纸

技术编号:37401856 阅读:34 留言:0更新日期:2023-04-30 09:29
本发明专利技术涉及文本识别技术领域,提供一种OCR识别方法及装置,包括:将待识别图像输入OCR识别模型,得到所述OCR识别模型预测的文本行中心区域、字符区域中心点及字符区域中像素类别;扩展文本行中心区域得到文本行区域;获取文本行区域内的各字符区域中心点;根据各字符区域中心点及相应字符区域中像素类别确定文本行区域中的字符类别,以得到每行文本的字符串结果,其中,所述OCR识别模型是基于样本图像、所述样本图像对应的文本行中心区域标签、字符区域中心点标签及字符区域中像素类别标签训练得到的。本发明专利技术实现了端到端的OCR识别,简化了OCR识别的流程,不存在误差累计,保证识别效果的同时还能减少整体模型耗时。别效果的同时还能减少整体模型耗时。别效果的同时还能减少整体模型耗时。

【技术实现步骤摘要】
OCR识别方法及装置


[0001]本专利技术涉及文本识别
,尤其涉及一种OCR识别方法及装置。

技术介绍

[0002]光学字符识别(optical character recognition,OCR)技术是识别图片中的文本行及其文本内容。现有技术中,OCR识别通常分为两个步骤:文本检测和文本识别,文本检测用于检测图片中是否存在文本行,文本识别用于对检测出的文本行,识别文本行中具体文本内容。目前,这两个步骤分别是在两个不同模型中分开进行的,从而使得模型计算量更大,且存在误差累计的问题。

技术实现思路

[0003]本专利技术提供一种OCR识别方法及装置,用以解决现有技术中OCR识别分成文本检测和文本识别两个步骤导致的模型计算量更大,且存在误差累计的问题。
[0004]本专利技术提供一种OCR识别方法,包括:
[0005]将待识别图像输入OCR识别模型,得到所述OCR识别模型预测的文本行中心区域、字符区域中心点及字符区域中像素类别;
[0006]扩展文本行中心区域得到文本行区域;/>[0007]获取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种OCR识别方法,其特征在于,包括:将待识别图像输入OCR识别模型,得到所述OCR识别模型预测的文本行中心区域、字符区域中心点及字符区域中像素类别;扩展文本行中心区域得到文本行区域;获取文本行区域内的各字符区域中心点;根据各字符区域中心点及相应字符区域中像素类别确定文本行区域中的字符类别,以得到每行文本的字符串结果,其中,所述OCR识别模型是基于样本图像、所述样本图像对应的文本行中心区域标签、字符区域中心点标签及字符区域中像素类别标签训练得到的,所述OCR识别模型用于根据所述待识别图像预测待识别图像中的文本行中心区域、字符区域中心点及字符区域中像素类别。2.根据权利要求1所述的OCR识别方法,其特征在于,所述OCR识别模型包括:特征提取层、第一网络输出层和第二网络输出层,所述特征提取层用于提取所述待识别图像的图像特征;所述第一网络输出层用于根据所述图像特征预测字符区域中心点及字符区域中像素类别;所述第二网络输出层用于根据下采样后的所述图像特征预测所述文本行中心区域。3.根据权利要求2所述的OCR识别方法,其特征在于,将待识别图像输入OCR识别模型,得到所述OCR识别模型预测的文本行中心区域、字符区域中心点及字符区域中像素类别,包括:将所述待识别图像输入特征提取层,以得到所述图像特征;将所述图像特征输入所述第一网络输出层,以得到第一网络输出层预测的字符区域中心点及字符区域中像素类别;对所述图像特征进行下采样,将下采样后的图像特征输入所述第二网络输出层,以得到第二网络输出层预测的文本行中心区域。4.根据权利要求2所述的OCR识别方法,其特征在于,在将待识别图像输入OCR识别模型之前,还包括:训练所述OCR识别模型,具体包括:将所述样本图像输入特征提取层;所述特征提取层提取样本图像的样本特征;将所述样本特征输入所述第一网络输出层,得到所述第一网络输出层预测的字符区域中心点预测结果及字符区域中像素类别预测结果;将所述样本特征输入所述第二网络输出层,得到所述第二网络输出层预测的文本行中心区域预测结果及像素行类别预测结果;将所述字符区域中心点预测结果...

【专利技术属性】
技术研发人员:陆强
申请(专利权)人:际络科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1