【技术实现步骤摘要】
图像文本检测训练方法及装置
[0001]本专利技术涉及计算机视觉
,尤其涉及一种图像文本检测训练方法及装置。
技术介绍
[0002]图像对象检测是指在图像中定位和检测感兴趣的目标,并给出每个目标所属的区域(例如边界框)。图像对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。图像文本检测是从图像中检测出包括各种字符的文本区域,然后,可以对文本区域中的字符进行识别和其他处理,因此,图像文本检测是图像文本识别和进一步处理的基础和前提。随着卷积神经网络(CNN)在图像处理中的广泛应用,图像文本检测能够更准确地检测出一些文本对象。
[0003]文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容,文字往往包含更强的语义信息,因此对图像中的文字提取和识别具有重大意义。基于深度学习的光学字符识别(OCR),已经被广泛应用于日常生活中,如常见的身份证、银行卡、驾驶证识别等。OCR包括检测与识别两个步骤。但是如果定位文本不准确会直接影响OCR识别精度,因此提高检测精度是OCR最重要的一步。
[0004]目前基于深度学习的字符检测都是基于检测框的回归和分割,包括CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network,基于连接预选框网络的文本检测)模型、EAST模型、Textboxes++(文本框++)模型等,但是当检测文本的行距比较小,即文字比较密集时,则现有方法无法有效区分相 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种图像文本检测训练方法,其特征在于,包括以下步骤:获取训练图像集,所述训练图像集包括多张训练图像;对每张所述训练图像进行缩放处理,以得到对应的缩放图像;根据所述缩放图像进行建模处理,以得到对应的预测图像;采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理,以得到预测图像分割集及训练图像分割集;根据loss1=dice(G[n-1],S[n-1])计算第一边界损失函数,其中,loss1是第一边界损失函数,G[n-1]=[g1,g2...gn-1],S[n-1]=[s1,s2...sn-1],dice是欧式距离函数,g1,g2,...,gn-1是对训练图像进行渐进扩展分割处理的结果,s1,s2,...,sn-1是对预测图像进行渐进扩展分割处理的结果;不断重复上述建模处理、渐进分割处理和计算第一边界损失函数的过程,直至所述第一边界损失函数满足预设条件。2.如权利要求1所述的方法,其特征在于,所述缩放处理采用下面公式实现:其中:Area(p)是训练图像的面积,Permeter(p)是训练图像的周长,r是缩放比例,d是缩放距离,r的取值范围包括大于等于0.5且小于1。3.如权利要求1所述的方法,其特征在于,所述建模处理包括:对所述缩放图像进行特征提取处理以及特征融合处理,以得到预测图像;所述特征提取处理包括:对所述缩放图像进行多次卷积处理,每次所述卷积处理包括一个卷积层和一个归一层;对所述多次卷积处理后的图像进行多次深度学习处理,每次所述深度学习处理依次包括:squeeze层、第一激活层、expand层和第二激活层。4.如权利要求3所述的方法,其特征在于,所述卷积处理的次数范围包括2—4;所述深度学习处理的次数范围包括9—15。5.如权利要求3所述的方法,其特征在于,所述特征融合处理包括:选择任一所述卷积层的输出特征图谱以及4—8次所述深度学习处理的squeeze层输出特征图谱进行FPN特征融合。6.如权利要求1所述的方法,其特征在于,在进行建模处理之前,所述方法还包括:对每张所述训练图像进行人工标注处理,以得到标注的四个原图边界像素值;根据所述标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值,并获取标注的右边界区域像素集和标注的左边界区域像素集;所述建模处理包括:根据所述预测图像与对应的训练图像,得到预测的右边界区域像素集和预测的左边界区域像素集;在进行建模处理之后,所述方法还包括:根据loss2=l
score
(y
r
,c
r
)+l
score
(y
l
,c
l
)计算第二边界损失函数,其中:loss2代表第二边界损失函数,l
score
(y
r
技术研发人员:崔淼,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。