图像文本检测训练方法及装置制造方法及图纸

技术编号:29010478 阅读:42 留言:0更新日期:2021-06-26 05:10
本发明专利技术提供一种图像文本检测训练方法及装置。所述方法包括:获取训练图像集,训练图像集包括多张训练图像;对每张训练图像进行缩放处理,以得到对应的缩放图像;根据所述缩放图像进行建模处理,以得到预测图像;采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理,以得到预测图像分割集及训练图像分割集;计算第一边界损失函数;不断重复上述建模处理和计算第一边界损失函数的过程,直至所述第一边界损失函数满足预设条件。本发明专利技术可以提高识别准确率,最终提高用户检测效果。效果。效果。

【技术实现步骤摘要】
图像文本检测训练方法及装置


[0001]本专利技术涉及计算机视觉
,尤其涉及一种图像文本检测训练方法及装置。

技术介绍

[0002]图像对象检测是指在图像中定位和检测感兴趣的目标,并给出每个目标所属的区域(例如边界框)。图像对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。图像文本检测是从图像中检测出包括各种字符的文本区域,然后,可以对文本区域中的字符进行识别和其他处理,因此,图像文本检测是图像文本识别和进一步处理的基础和前提。随着卷积神经网络(CNN)在图像处理中的广泛应用,图像文本检测能够更准确地检测出一些文本对象。
[0003]文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容,文字往往包含更强的语义信息,因此对图像中的文字提取和识别具有重大意义。基于深度学习的光学字符识别(OCR),已经被广泛应用于日常生活中,如常见的身份证、银行卡、驾驶证识别等。OCR包括检测与识别两个步骤。但是如果定位文本不准确会直接影响OCR识别精度,因此提高检测精度是OCR最重要的一步。
[0004]目前基于深度学习的字符检测都是基于检测框的回归和分割,包括CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network,基于连接预选框网络的文本检测)模型、EAST模型、Textboxes++(文本框++)模型等,但是当检测文本的行距比较小,即文字比较密集时,则现有方法无法有效区分相邻实例,最终必然会降低识别精度。
[0005]因此,如何检测文本行之间密集问题,以提高识别精度就成为本领域亟待解决的问题之一。

技术实现思路

[0006]本专利技术解决的问题是提供一种图像文本检测训练方法,可以解决密集文字紧靠的情况,最终提高用户检测效果。
[0007]为解决上述问题,本专利技术实施例提供一种图像文本检测训练方法,包括以下步骤:
[0008]获取训练图像集,所述训练图像集包括多张训练图像;
[0009]对每张所述训练图像进行缩放处理,以得到对应的缩放图像;
[0010]根据所述缩放图像进行建模处理,以得到对应的预测图像;
[0011]采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理,以得到预测图像分割集及训练图像分割集;
[0012]根据loss1=dice(G[n-1],S[n-1])计算第一边界损失函数,其中,loss1是第一边界损失函数,G[n-1]=[g1,g2...gn-1],S[n-1]=[s1,s2...sn-1],dice是欧式距离函数,g1,g2,...,gn-1是对训练图像进行渐进扩展分割处理的结果,s1,s2,...,sn-1是对预测图像进行渐进扩展分割处理的结果;
[0013]不断重复上述建模处理、渐进分割处理和计算第一边界损失函数的过程,直至所述第一边界损失函数满足预设条件。
[0014]可选地,所述缩放处理采用下面公式实现:
[0015][0016]其中:Area(p)是训练图像的面积,Permeter(p)是训练图像的周长,r是缩放比例,d是缩放距离,r的取值范围包括大于等于0.5且小于1。
[0017]可选地,所述建模处理包括:对所述缩放图像进行特征提取处理以及特征融合处理,以得到预测图像;所述特征提取处理包括:对所述缩放图像进行多次卷积处理,每次所述卷积处理包括一个卷积层和一个归一层;对所述多次卷积处理后的图像进行多次深度学习处理,每次所述深度学习处理依次包括:squeeze层、第一激活层、expand层和第二激活层。
[0018]可选地,所述卷积处理的次数范围包括2—4;所述深度学习处理的次数范围包括9—15。
[0019]可选地,所述特征融合处理包括:选择任一所述卷积层的输出特征图谱以及4—8次所述深度学习处理的squeeze层输出特征图谱进行FPN特征融合。
[0020]可选地,在进行建模处理之前,所述方法还包括:
[0021]对每张所述训练图像进行人工标注处理,以得到标注的四个原图边界像素值;
[0022]根据所述标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值,并获取标注的右边界区域像素集和标注的左边界区域像素集;
[0023]所述建模处理包括:根据所述预测图像与对应的训练图像,得到预测的右边界区域像素集和预测的左边界区域像素集;
[0024]在进行建模处理之后,所述方法还包括:
[0025]根据loss2=l
score
(y
r
,c
r
)+l
score
(y
l
,c
l
)计算第二边界损失函数,其中:loss2代表第二边界损失函数,l
score
(y
r
,c
r
)是预测的右边界区域像素集y
r
与标注的右边界区域像素集c
r
之间的误差,l
score
(y
l
,c
l
)是预测的左边界区域像素集y
l
与标注的左边界区域像素集c
l
之间的误差;
[0026]不断重复上述建模处理、渐进分割处理和计算第一边界损失函数的过程,直至所述第一边界损失函数满足预设条件包括:不断重复上述建模处理、计算第一边界损失函数、渐进分割处理以及计算第二边界损失函数的过程,直至所述第一边界损失函数和所述第二边界损失函数之和满足预设条件。
[0027]可选地,所述渐进分割处理包括n-1次扩展处理,第i次扩展处理采用下面公式分别对训练图像和预测图像进行处理以得到gi和si:
[0028][0029][0030]其中:d

i
是第i次扩展的扩展距离,Area(x)是训练图像或预测图像的面积,Permeter(x)是训练图像或预测图像的周长,m的取值范围大于等于0且小于1,n的取值范围大于等于4且小于等于10。
[0031]为了解决上述技术问题,本专利技术实施例还提供了一种图像文本检测训练装置,包括:
[0032]输入模块,用于获取训练图像集,所述训练图像集包括多张训练图像;
[0033]缩放模块,用于对每张所述训练图像进行缩放处理,以得到对应的缩放图像;
[0034]建模模块,用于根据所述缩放图像进行建模处理,以得到对应的预测图像;
[0035]渐进分割模块,用于采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理,以得到预测图像分割集及训练图像分割集;
[0036]第一边界损失函数模块,用于根据loss1=dice(G[n-1],S[n-1])计算第一边界损失函数,其中,loss1是第一边界损失函数,G[n-1]=[g1,g2...gn-1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像文本检测训练方法,其特征在于,包括以下步骤:获取训练图像集,所述训练图像集包括多张训练图像;对每张所述训练图像进行缩放处理,以得到对应的缩放图像;根据所述缩放图像进行建模处理,以得到对应的预测图像;采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理,以得到预测图像分割集及训练图像分割集;根据loss1=dice(G[n-1],S[n-1])计算第一边界损失函数,其中,loss1是第一边界损失函数,G[n-1]=[g1,g2...gn-1],S[n-1]=[s1,s2...sn-1],dice是欧式距离函数,g1,g2,...,gn-1是对训练图像进行渐进扩展分割处理的结果,s1,s2,...,sn-1是对预测图像进行渐进扩展分割处理的结果;不断重复上述建模处理、渐进分割处理和计算第一边界损失函数的过程,直至所述第一边界损失函数满足预设条件。2.如权利要求1所述的方法,其特征在于,所述缩放处理采用下面公式实现:其中:Area(p)是训练图像的面积,Permeter(p)是训练图像的周长,r是缩放比例,d是缩放距离,r的取值范围包括大于等于0.5且小于1。3.如权利要求1所述的方法,其特征在于,所述建模处理包括:对所述缩放图像进行特征提取处理以及特征融合处理,以得到预测图像;所述特征提取处理包括:对所述缩放图像进行多次卷积处理,每次所述卷积处理包括一个卷积层和一个归一层;对所述多次卷积处理后的图像进行多次深度学习处理,每次所述深度学习处理依次包括:squeeze层、第一激活层、expand层和第二激活层。4.如权利要求3所述的方法,其特征在于,所述卷积处理的次数范围包括2—4;所述深度学习处理的次数范围包括9—15。5.如权利要求3所述的方法,其特征在于,所述特征融合处理包括:选择任一所述卷积层的输出特征图谱以及4—8次所述深度学习处理的squeeze层输出特征图谱进行FPN特征融合。6.如权利要求1所述的方法,其特征在于,在进行建模处理之前,所述方法还包括:对每张所述训练图像进行人工标注处理,以得到标注的四个原图边界像素值;根据所述标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值,并获取标注的右边界区域像素集和标注的左边界区域像素集;所述建模处理包括:根据所述预测图像与对应的训练图像,得到预测的右边界区域像素集和预测的左边界区域像素集;在进行建模处理之后,所述方法还包括:根据loss2=l
score
(y
r
,c
r
)+l
score
(y
l
,c
l
)计算第二边界损失函数,其中:loss2代表第二边界损失函数,l
score
(y
r

【专利技术属性】
技术研发人员:崔淼
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1