字符的坐标提取方法、装置、设备和存储介质制造方法及图纸

技术编号:37913689 阅读:11 留言:0更新日期:2023-06-21 22:36
本发明专利技术实施例公开一种字符的坐标提取方法,所述方法包括:将目标文本图像输入至特征提取骨干网络中,通过骨干网中不同层的特征融合获取字符分割特征和文本行分割特征;将所述的字符分割特征和文本行分割特征分别输入至文本行分割模块和字符分割模块,获取目标图像的字符分割热度图和文本分割热度图;根据所述字符分割热度图以及文本分割热度图,计算单个字符的坐标。通过上述方式,本发明专利技术实施例避免了特征的重复提取;对字符分割具有较高的鲁棒性;加快了网络的收敛,提高了网络的分割效率;基于CTC的识别结果反向推导坐标,与字符分割法相结合提高了单字坐标提取的准确率。法相结合提高了单字坐标提取的准确率。法相结合提高了单字坐标提取的准确率。

【技术实现步骤摘要】
字符的坐标提取方法、装置、设备和存储介质


[0001]本专利技术实施例涉及图像识别
,具体涉及一种字符的坐标提取方法、装置、设备和存储介质。

技术介绍

[0002]目前已知的文本单字坐标提取方法主要包括:对目标图像进行分割,获取各独立的连通体,然后判断各连通体中是否包含粘连字符,对粘连字符轮廓进行检测获取字符中存在的封闭区域中心位置,然后对粘连字符进行分割,获取单个字符的位置。设计一个基于注意力机制的文本行识别网络,并训练识别模型。将待分割的文本行图像输入识别模型,通过注意力机制的权重概率分布计算单字分割的结果,最终得到每个字符的位置信息及识别结果。
[0003]上述方案中,首先对目标图像进行分割,获取各独立的连通体,然后根据目标图像中各字符所占的字符区域的宽度和高度判断各连通体中是否包含有粘连字符,当存在包含有粘连字符的连通体时,确定粘连字符中存在的封闭区域的中心位置,根据封闭区域的中心位置获取粘连字符的中心位置,对所粘连的字符进行分割,获取单个字符及位置信息。该方法通过判断连通体中字符的宽度和高度判断是否有粘连字符,对于中英文混合的文本,英文字符的宽度和中文不同,无法通过宽度判断字符是否粘连。另外,对于粘连字符需要利用粘连字符的封闭区域的中心位置来进行分割,但是常见的字符中大多数都不含封闭区域,因此具有很大局限性。
[0004]目前,已知的文本单字坐标提取方法还包括:搜集文本行训练数据;对图像的尺寸做归一化;对训练图像做增广;创建注意力机制的文本行识别模型;通过大量训练数据训练得到识别模型;将待分割的文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割的结果。该方法注意力机制的方法存在注意力漂移的问题,会影响识别结果。注意力机制的方法主要用于训练识别模型,该方法用于单字分割的准确率受识别模型的影响较大,当识别中出现漏识时,会影响单字分割的准确率,鲁棒性较差。

技术实现思路

[0005]鉴于上述问题,本专利技术实施例提供了一种适应范围更广、鲁棒性更高的字符的坐标提取方法、装置、设备和存储介质。
[0006]本专利技术实施例的第一方面,提供了一种字符的坐标提取方法,所述方法包括步骤:
[0007]将目标文本图像输入至特征提取骨干网络中,通过骨干网中不同层的特征融合获取字符分割特征和文本行分割特征;
[0008]将所述字符分割特征和文本行分割特征分别输入至文本行分割模块和字符分割模块,获取所述目标文本图像的字符分割热度图和文本分割热度图;
[0009]根据所述字符分割热度图以及文本分割热度图,计算单个字符在所述目标文本图像中的坐标。
[0010]在一种可选的方式中,将目标文本图像输入至特征提取骨干网络中,通过骨干网中不同层的特征融合获取字符分割特征和文本行分割特征具体包括步骤:
[0011]将所述目标文本图像输入至所述特征提取骨干网;
[0012]在所述特征提取骨干网中抽取目标文本图像的特征图;
[0013]将抽取的所述特征图通过FPN融合,获取所述字符分割特征和文本行分割特征。
[0014]在一种可选的方式中,所述的将所述字符分割特征和文本行分割特征输入至分割网络模型中,获取目标文本图像的字符分割热度图和文本分割热度图,所述分割网络模型包括单个字符分割网络和文本行区域分割网络具体包括步骤:
[0015]将所述字符分割特征输入至所述单个字符分割网络,得到字符分割概率图和字符分割阈值图;
[0016]根据所述字符分割概率图和字符分割阈值图的差值计算出字符分割热度图;
[0017]将所述文本行分割特征输入至所述文本行区域分割网络,得到文本行分割概率图和文本行分割阈值图;
[0018]根据所述文本行分割概率图和文本行分割阈值图的差值计算出文本行分割热度图。
[0019]在一种可选的方式中,所述的根据所述字符分割热度图以及文本分割热度图,计算单个字符的坐标进一步包括步骤:
[0020]通过所述文本行分割热度图获取文本行的检测框位置信息;
[0021]按照所述文本行的检测框位置信息对所述字符分割热度图进行裁剪,得到文本行图片;
[0022]通过分水岭算法对所述文本行图片进行分割,形成分割图,并获取所述分割图的数量;
[0023]通过CTC识别所述文本行图片中的字符数量;
[0024]将通过分水岭算法分割得到的分割图的数量与通过CTC识别出的字符数量进行对比;
[0025]当分割图的数量与字符数量相同时,通过分水岭算法获取每个字符的位置信息;
[0026]将所述每个字符的位置信息还原到所述目标文本图像得到每个字符的坐标;
[0027]当分割图的数量与字符数量不相同时,从CTC中提取单字字符坐标。
[0028]在一种可选的方式中,所述的当分割图的数量与字符数量不相同时,从CTC中提取单字字符坐标具体包括步骤:
[0029]基于CTC对所述文本行图片进行均匀切分,形成若干个切分图像块,
[0030]对若干个所述切分图像块进行识别,得出每个所述切分图像块对应的字符,对于不能识别的切分图像块标记为特殊字符;
[0031]将相同字符对应的所述切分图像块进行合并,形成合并图像块;
[0032]从所述合并图像块的1/2位置进行切分,得到每个字符的切分结果;
[0033]将所述字符的切分结果对应到所述文本行图片得到文本框,最终得到基于CTC的单字坐标信息。
[0034]在一种可选的方式中,还包括步骤:训练分割网络模型,所述的训练分割网络模型进一步包括:
[0035]准备训练数据,所述训练数据需要标注每个字符的位置信息以及整个文本行的位置信息,所述每个字符的位置信息用于训练单个字符分割网络,所述整个文本行的位置信息用于训练文本行区域分割网络。
[0036]在一种可选的方式中,所述的训练分割网络模型还包括:
[0037]设计联合训练损失函数,通过所述联合训练损失函数对所述分割网络模型进行训练;
[0038]所述联合训练损失函的计算公式为:
[0039]Loss=αloss
char
+βloss
textline

[0040]其中,α,β为常系数;
[0041]loss
char
和loss
textline
分别包含了字符及文本行的分割图损失L
S
、阈值图损失L
t

[0042]loss
char
=α1L
S1
+β1L
t1

[0043]loss
textline
=α2L
S2
+β2L
t2

[0044]其中,α1、α2、β1、β2为常系数;
[0045]所述联合训练损失函中分割概率图采用的是二分类交叉熵损失函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符的坐标提取方法,其特征在于,所述方法包括步骤:将目标文本图像输入至特征提取骨干网络中,通过骨干网中不同层的特征融合获取字符分割特征和文本行分割特征;将所述字符分割特征和文本行分割特征分别输入至文本行分割模块和字符分割模块,获取所述目标文本图像的字符分割热度图和文本分割热度图;根据所述字符分割热度图以及文本分割热度图,计算单个字符在所述目标文本图像中的坐标。2.根据权利要求1所述的字符的坐标提取方法,其特征在于,将目标文本图像输入至特征提取骨干网络中,通过骨干网中不同层的特征融合获取字符分割特征和文本行分割特征具体包括步骤:将所述目标文本图像输入至所述特征提取骨干网;在所述特征提取骨干网中抽取目标文本图像的特征图;将抽取的所述特征图通过FPN融合,获取所述字符分割特征和文本行分割特征。3.根据权利要求1或2所述的字符的坐标提取方法,其特征在于,将所述字符分割特征和文本行分割特征分别输入至文本行分割模块和字符分割模块,获取所述目标文本图像的字符分割热度图和文本分割热度图具体包括步骤:将所述字符分割特征输入至所述单个字符分割网络,得到字符分割概率图和字符分割阈值图;根据所述字符分割概率图和字符分割阈值图的差值计算出字符分割热度图;将所述文本行分割特征输入至所述文本行区域分割网络,得到文本行分割概率图和文本行分割阈值图;根据所述文本行分割概率图和文本行分割阈值图的差值计算出文本行分割热度图。4.根据权利要求1所述的字符的坐标提取方法,其特征在于,所述根据所述字符分割热度图以及文本分割热度图,计算单个字符的坐标进一步包括步骤:通过所述文本行分割热度图获取文本行的检测框位置信息;按照所述文本行的检测框位置信息对所述字符分割热度图进行裁剪,得到文本行图片;通过分水岭算法对所述文本行图片进行分割,形成分割图,并获取所述分割图的数量;通过CTC识别所述文本行图片中的字符数量;将通过分水岭算法分割得到的分割图的数量与通过CTC识别出的字符数量进行对比;当分割图的数量与字符数量相同时,通过分水岭算法获取每个字符的位置信息;将所述每个字符的位置信息还原到所述目标文本图像得到每个字符的坐标;当分割图的数量与字符数量不相同时,从CTC中提取单字字符坐标。5.根据权利要求4所述的字符的坐标提取方法,其特征在于,所述当分割图的数量与字符数量不相同时,从CTC中提取单字字符坐标具体包括步骤:基于CTC对所述文本行图片进行均匀切分,形成若干个切分图像块,对若干个所述切分图像块进行识别,得出每个所述切分图像块对应的字符,对于不能识别的切分图像块标记为特殊字符;将相同字符对应的所述切分图像块进行合并,形成合并图像块;
从所述合并图像块的1/2位置进行切分,得到每个字符的切分结果;将所述字符的切分结果对应到所述文本行图片得到文本框,最终得到基于CTC的单字坐标信息。6.根据权利要求3所述的字符的坐标提取方法,其特征在于,所述方法还包括:训练分割网络模型,所述的训练分割网络模型进一步包括:准备训练数据,所述训练数据需要标注每个字符的位置信息以及整个文本...

【专利技术属性】
技术研发人员:刘小双
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1