一种带姿态校正的端到端商品价签文字识别方法和系统技术方案

技术编号:23985298 阅读:24 留言:0更新日期:2020-04-29 13:14
本发明专利技术提供一种带姿态校正的端到端商品价签文字识别方法和系统,属于计算机视觉技术领域,包括:获取商品价签图像并进行特征提取得到相应的特征图;对特征图进行区域选取处理得到文字建议区域;对文字建议区域进行分割处理得到处理后的文字建议区域,并将处理后的文字建议区域进行图形外扩处理得到文字特征图;对文字特征图进行关键点检测处理得到多个包围文字特征图的关键点;根据多个关键点并利用薄板样条插值,对文字特征图进行姿态矫正处理得到固定大小且水平的待处理特征图;对待处理特征图进行文字化处理得到相应的文字。本发明专利技术的有益效果:能够提升复杂场景文字识别的鲁棒性和效率。

An end-to-end commodity price tag text recognition method and system with posture correction

【技术实现步骤摘要】
一种带姿态校正的端到端商品价签文字识别方法和系统
本专利技术涉及计算机视觉领域,具体涉及一种带姿态校正的端到端商品价签文字识别方法和系统。
技术介绍
通过计算机视觉技术来识别渠道陈列图像中的商品价格标签,从而获知商品价格信息已经成为各快销品牌商管控分销终端价格的重要解决方案。在该方案中,要实现商品价格的快速准确识别,价签上文字的准确识别是关键。由于图像拍摄角度原因,图像中的商品价签具有姿态任意的特点,价签上的文字方向和姿态并不确定,这对文字的精确识别带来较大难度。此外,基于计算机视觉技术的商品价格识别通常具有较高的实效性需求,需要能接近实时的识别速度。然而,单张渠道陈列图像中的价签数量通常较多(通常多达十几个),单张价签上的文字段也通常多达数十个,这就为识别速度带来巨大挑战。现有的大多数文字识别方案都采用“文字检测+姿态矫正+文字识别”的算法方案,首先利用文字检测算法定位出文字的位置,然后切取文字图像区域,通过图像处理技术对文字图像进行姿态矫正(仿射变换、透视变换等),然后用文字识别算法进行识别。这种方法通过多个阶段逐步实现文字识别,主要存在两方面的不足:1)识别效率低下文字检测阶段和文字识别阶段都会对同样的图像区域进行特征提取,导致重复计算。而特征提取阶段的计算量往往占了总计算量的大部分,这就导致单张渠道陈列图像的商品价格识别时间特别长,通常可达到几十秒到数分钟的识别时间,难以满足实时性需求。2)算法鲁棒性不够文字识别通常是在姿态矫正后进行。现有的姿态矫正算法基本都是在确定了文字的严格区域之后(比如任意四边形或旋转矩形框区域)进行的,输入的文字图像的所有区域(包括干扰信息)都在姿态矫正后参与到文字识别中,无法修正由于文字区域不准确导致的文字信息丢失(少框住部分文字区域)和干扰信息增加(多框住部分文字区域)的问题,也就是对于文字框的定位准确性比较敏感,鲁棒性不足。为了提升文字识别算法对姿态的鲁棒性,现有技术提出了一种带姿态矫正的文字识别算法,通过在算法模型中增加空间转换模块,基于模型预测的多个关键点,选择输入图像中的有效文字区域进行姿态矫正,来实现不同姿态的文字识别,对输入的文字图像的多余干扰信息不敏感,取得了较好的效果。但是其仍需要切取后的文字段图像作为输入,会重复提取文字特征,无法与文字检测一起实现端到端训练。在端到端文字识别方面,也有较多文献开展了大量工作,其中大部分仍是采用多阶段联合训练的方案,现有技术进一步的提出的端到端文字识别算法直接在特征图上切取感兴趣的文字区域进行文字识别,避免了特征重复提取,同时可利用多任务训练相互促进,但其并没有考虑文字姿态矫正。现有技术进一步的则通过对切取的感兴趣文字特征区域进行放射变换修正来进行姿态纠正,其无法对透视状态等更加复杂的姿态进行纠正,并且也无法解决文字区域信息丢失(少框住部分有效文字区域)的问题。
技术实现思路
本专利技术的目的在于提供一种具有带姿态纠正的端到端商品价签文字识别方法,应用于渠道陈列、场景文字识别及类似场景,能够提升复杂场景文字识别的鲁棒性和效率。为达此目的,本专利技术采用以下技术方案:提供一种算法模型训练方法,包括:具有带姿态纠正的端到端商品价签文字识别方法,包括:步骤S1、获取商品价签图像并进行特征提取得到相应的特征图;步骤S2、对所述特征图进行区域选取处理得到文字建议区域;步骤S3、对所述文字建议区域进行分割处理得到处理后的文字建议区域,并将所述处理后的文字建议区域进行图形外扩处理得到文字特征图;步骤S4、对所述文字特征图进行关键点检测处理得到多个包围所述文字特征图的关键点;步骤S5、根据所述多个关键点并利用薄板样条插值,对所述文字特征图进行姿态矫正处理得到固定大小且水平的待处理特征图;步骤S6、对所述待处理特征图进行文字化处理得到相应的文字。作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案,所述步骤S1中,利用深度学习网络对所述商品价签图像进行特征提取,以提取文字特征得到多维的所述特征图。作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案,.所述步骤S2中,利用RPN网络对所述特征图进行所述区域选取处理得到所述文字建议区域及其外接矩形框位置。作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案,所述步骤S3中,所述分割处理的具体步骤包括:步骤S31、对所述文字建议区域进行去重处理和上采样处理得到至少一个高分辨率区域,所述高分辨率区域的分辨率高于所述文字建议区域的分辨率;步骤S32、分别对每个所述高分辨率区域进行逐像素分割处理得到分割概率图像和所述分割概率图像中每个像素点的属性概率信息,所述属性概率信息用于表示所述像素点是否为文字以及为文字的概率值;步骤S33、分别对每个所述分割概率图像进行区域得分计算处理得到所述分割概率图像中所有属性为文字的像素点的所述概率值的平均值,分别判断每个所述分割概率图像对应的所述平均值是否大于预设阈值:若判断结果为是,则保留所述分割概率图像;若判断结果为否,则删除所述分割概率图像。作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案,所述步骤S3中,所述图形外扩处理的具体步骤包括:步骤S34、根据所述分割概率图像的长宽尺寸,并按照预设比例对所述分割概率图像进行外扩,得到外扩后的所述分割概率图像及包围外扩后的所述分割概率图像的外围部分图像作为所述文字特征图。作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案,所述步骤S4中,利用带注意力机制的关键点检测对所述文字特征图进行所述关键点检测处理得到多个包围关注的所述文字特征图的所述关键点。作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案,所述步骤S5中,根据所述多个关键点并利用薄板样条插值,约束所述文字特征图中实际需要使用的特征区域,并滤除无关的干扰特征信息得到所述待处理特征图,实际需要使用的特征区域为注意力机制关心的有效文字段,无关的干扰特征信息为环绕有效文字段的无效文字段,所述待处理特征图为固定大小的水平特征区域。作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案,所述步骤S6中,所述文字化处理的具体步骤包括:步骤S61、对所述待处理特征图进行编码转换处理得到一固定长度的特征序列;步骤S62、利用注意力机制和BLSTM计算固定长度的特征序列的输出特征;步骤S63、对输出特征进行解码处理得到可理解的文字。本专利技术还提供了一种具有带姿态纠正的端到端商品价签文字识别系统,可实现上述的端到端商品价签文字识别方法,包括:特征提取模块,用于获取商品价签图像并进行特征提取得到相应的特征图;文字区域切取模块,用于对所述特征图进行区域选取处理得到文字建议区域,对所述文字建议区域进行分割处理得到处理后的文字建议区域,并将所述处理后的文字建议区域进行图形外扩处理得到本文档来自技高网
...

【技术保护点】
1.一种具有带姿态纠正的端到端商品价签文字识别方法,其特征在于,包括:/n步骤S1、获取商品价签图像并进行特征提取得到相应的特征图;/n步骤S2、对所述特征图进行区域选取处理得到文字建议区域;/n步骤S3、对所述文字建议区域进行分割处理得到处理后的文字建议区域,并将所述处理后的文字建议区域进行图形外扩处理得到文字特征图;/n步骤S4、对所述文字特征图进行关键点检测处理得到多个包围所述文字特征图的关键点;/n步骤S5、根据多个所述关键点并利用薄板样条插值,对所述文字特征图进行姿态矫正处理得到固定大小且水平的待处理特征图;/n步骤S6、对所述待处理特征图进行文字化处理得到相应的文字。/n

【技术特征摘要】
1.一种具有带姿态纠正的端到端商品价签文字识别方法,其特征在于,包括:
步骤S1、获取商品价签图像并进行特征提取得到相应的特征图;
步骤S2、对所述特征图进行区域选取处理得到文字建议区域;
步骤S3、对所述文字建议区域进行分割处理得到处理后的文字建议区域,并将所述处理后的文字建议区域进行图形外扩处理得到文字特征图;
步骤S4、对所述文字特征图进行关键点检测处理得到多个包围所述文字特征图的关键点;
步骤S5、根据多个所述关键点并利用薄板样条插值,对所述文字特征图进行姿态矫正处理得到固定大小且水平的待处理特征图;
步骤S6、对所述待处理特征图进行文字化处理得到相应的文字。


2.根据权利要求1的具有带姿态纠正的端到端商品价签文字识别方法,其特征在于,所述步骤S1中,利用深度学习网络对所述商品价签图像进行特征提取,以提取文字特征得到多维的所述特征图。


3.根据权利要求1的具有带姿态纠正的端到端商品价签文字识别方法,其特征在于,所述步骤S2中,利用RPN网络对所述特征图进行所述区域选取处理得到所述文字建议区域及其外接矩形框位置。


4.根据权利要求1的具有带姿态纠正的端到端商品价签文字识别方法,其特征在于,所述步骤S3中,所述分割处理的具体步骤包括:
步骤S31、对所述文字建议区域进行去重处理和上采样处理得到至少一个高分辨率区域,所述高分辨率区域的分辨率高于所述文字建议区域的分辨率;
步骤S32、分别对每个所述高分辨率区域进行逐像素分割处理得到分割概率图像和所述分割概率图像中每个像素点的属性概率信息,所述属性概率信息用于表示所述像素点是否为文字以及为文字的概率值;
步骤S33、分别对每个所述分割概率图像进行区域得分计算处理得到所述分割概率图像中所有属性为文字的像素点的所述概率值的平均值,分别判断每个所述分割概率图像对应的所述平均值是否大于预设阈值:
若判断结果为是,则保留所述分割概率图像;
若判断结果为否,则删除所述分割概率图像。


5.根据权利要求4的具有带姿态纠正的端到端商品价签文字识别方法,其特征在于,所述步骤S3中,所述图形外扩处理的具体步骤包括:
步骤S34、根据所述分割概率图像的长宽尺寸,并按照预设比例对...

【专利技术属性】
技术研发人员:秦永强张发恩高达辉
申请(专利权)人:创新奇智重庆科技有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1