一种烟草证件以及订单的光学文字识别方法技术

技术编号:26792640 阅读:23 留言:0更新日期:2020-12-22 17:08
本发明专利技术公开一种烟草证件以及订单的光学文字识别方法,它包括训练阶段和推理阶段,训练阶段采集用于训练的烟草证件以及订单的训练图片,通过算法处理后送入神经网络中训练,获得光学文字识别预训练模型,推理阶段则将采集的待识别图片经过处理后送入光学文字识别预训练模型中,得到推理结果,对推理结果进行结构化分类,得到不同的文字内容最终得到不同要素的内容信息。本发明专利技术利用少量数据即可训练神经网络,且能够有效提高识别的精准度,极大地提升烟草证件及订单录入的效率,从而赋能烟草零售。

【技术实现步骤摘要】
一种烟草证件以及订单的光学文字识别方法
本专利技术属于机器视觉
,具体来说,涉及一种利用特征提取和机器学习技术对烟草证件以及订单上的文字进行高精度识别的方法。
技术介绍
我国烟草零售监管需要对零售商的相关烟草证件进行查验核对,这需要监管部门人工对零售商持有的证件信息进行手工录入。在大规模的查验中,人工录入的方法存在效率低,准确率稳定性难以得到保证等问题。同样地,在烟草库存管理和追踪中,需要将大量的烟草订单信息录入及计算机,人工录入的方式难以快速、准确地将相关信息录入至计算机中。因此需要一种高精度的自动化信息录入方式。采用光学文字识别能够对烟草证件以及订单图片中的文字信息进行提取,并根据结构化要素录入到计算机的技术,其可以实现自动,快速的信息录入。然而,目前的光学文字识别大多采用深度学习的方式,需要大量数据对神经网络进行训练迭代。烟草行业与传统行业不同,难以找到大量的烟草证件以及订单信息供网络训练使用,故网络难以学习到准确的特征信息,难以获得较高的识别精度。为解决以上问题,需要一种不需要大量数据训练,便可达到高精度识别的方法。专利技本文档来自技高网...

【技术保护点】
1.一种烟草证件以及订单的光学文字识别方法,其特征在于,包括如下步骤:/n1)、采集用于训练的烟草证件及订单的训练图片;/n2)、将采集到的训练图片通过卷积神经网络中获得图片群的特征信息;/n3)、随机抽取步骤2)中获得的特征信息作为特征图送入生成对抗网络中,生成数据母版;/n4)、将步骤3)中获得的数据母版送入目标检测网络中,获得文字区域;/n5)、将步骤4)中得到的文字区域作为感兴趣区域添加相应的文字信息,从而获得母版生成图像群;/n6)、将步骤5)获得的母版生成图像群进行随机伸缩和透视变换,进行明暗调整后得到增强后的虚拟图像群;/n7)、将步骤6)中获得的虚拟图像群与真实图像群作为数据一...

【技术特征摘要】
1.一种烟草证件以及订单的光学文字识别方法,其特征在于,包括如下步骤:
1)、采集用于训练的烟草证件及订单的训练图片;
2)、将采集到的训练图片通过卷积神经网络中获得图片群的特征信息;
3)、随机抽取步骤2)中获得的特征信息作为特征图送入生成对抗网络中,生成数据母版;
4)、将步骤3)中获得的数据母版送入目标检测网络中,获得文字区域;
5)、将步骤4)中得到的文字区域作为感兴趣区域添加相应的文字信息,从而获得母版生成图像群;
6)、将步骤5)获得的母版生成图像群进行随机伸缩和透视变换,进行明暗调整后得到增强后的虚拟图像群;
7)、将步骤6)中获得的虚拟图像群与真实图像群作为数据一同送入神经网络中训练,获得光学文字识别预训练模型;
8)、采集烟草证件及订单的待识别图片;
9)、将步骤8)中采集的待识别图片送入目标检测网络中,得到证件内容区域四边形角点信息,并计算得到透视矩阵;
10)、利用步骤9)中得到的透视矩阵将待识别图片进行透视变换,使得证件的有效内容区域充满整个屏幕,进行明暗调整后得到新的待识别图片;
11)、将步骤10)中得到的新的待识别图片送入步骤7)中的光学文字识别预训练模型中,得到推理结果;
12)、对步骤11)中的推理结果进行结构化分类,得到不同的文字内容最终得到不同要素的内容信息。


2.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法,其特征在于,步骤1)与步骤8)中所采集的训练图片和待识别图片分辨率不得小于800×600,步骤1)中的训...

【专利技术属性】
技术研发人员:杨恒龙涛
申请(专利权)人:深圳爱莫科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1