一种基于实例感知成分合并网络的曲线文字定位方法技术

技术编号:26690569 阅读:30 留言:0更新日期:2020-12-12 02:41
本发明专利技术公开了一种基于实例感知成分合并网络的曲线文字定位方法,具体包括如下步骤:步骤1,在场景文字数据集官网下载场景文字图像数据集,将数据集划分为训练集和测试集;步骤2,设计一种ICMN网络结构;步骤3,定义ICMN网络目标损失函数;步骤4,制作训练样本集;步骤5,制作真值集合;步骤6,将训练样本集和对应的真值集合送入ICMN网络中训练,得到网络模型;步骤7,从测试集中取出一张图像,用曲线文字检测算法对图像进行多边形文字成分检测,将检测的多边形对迭代送入ICMN网络模型中进行多边形成分合并,得到合并后的文字实例多边形。本发明专利技术解决了场景文本检测方法对文本实例中相邻或相交文本成分的合并问题,提高了场景文本检测算法的性能。

【技术实现步骤摘要】
一种基于实例感知成分合并网络的曲线文字定位方法
本专利技术属于图像处理
,涉及一种基于实例感知成分合并网络的曲线文字定位方法。
技术介绍
近年来,自然场景文字信息提取已越来越广泛地应用于多语言翻译,自主导航,信息检索,产品和对象识别中。文字提取包括文字检测和文字识别,作为文字识别的重要前提,文字检测在很大程度上吸引了众多学者和行业研究人员的关注。随着卷积神经网络(CNNs)的发展和广泛应用,许多基于深度学习的方法在自然场景文字检测方面取得了显著的效果。基于深度学习的文字检测方法大致可以分为自顶向下和自底向上两类方法。自顶向下的方法也被称为基于回归的方法,通常采用流行的目标检测器在单词或行级注释的监督下对文字所在的矩形和四边形进行位置回归。由于文字的形状,大小和方向的差异以及相应的CNN模型的结构限制,基于回归的方法无法处理任意形状的文本实例。自底向上方法首先用CNN检测文本部件,然后将这些部件分组到文本实例中。与基于回归的方法相比,自底向上方法在检测任意形状文本方面具有更大的灵活性,但在处理长文本时经常会出现将其检测为多个文字成分而不是一个完整的文本实例,从而破坏语义的连贯性导致后续不完整的语义识别。为了进一步提高曲线文本检测结果的文本实例完整性,避免在处理长文本行或单词时不准确的部件分组,有必要把属于一个长文本实例中相邻或相交的文本成分进行有效合并,因此需要设计一种基于文本实例感知的成分合并网络(Instance-awareComponentMergingNetwork,ICMN),可以有效合并一个文字实例中相邻或相交的文本子部分,定位完整的文字实例多边形结果,提高曲线场景文本检测算法的性能。
技术实现思路
本专利技术的目的是提供一种基于实例感知成分合并网络的曲线文字定位方法,解决了场景文本检测方法在文本实例中相邻或相交的文本成分的合并问题,提高了场景文本检测算法的性能。本专利技术所采用的技术方案是,一种基于实例感知成分合并网络的曲线文字定位方法,具体包括如下步骤:步骤1,在场景文字数据集官网下载SCUT-CTW1500或Total-Text曲线场景文字图像数据集D,按I:J的个数比例将D划分为训练文字图像数据集TR={tri|i=1,2...I}和测试文字图像数据集TE={tej|j=1,2...J},其中tri是TR中的第i幅文字图像,tej是TE中的第j幅文字图像,I和J分别是TR和TE中的图像个数;步骤2,设计一种ICMN网络结构;步骤3,定义ICMN网络的目标损失函数L,L=Lcls+λLreg,其中Lcls表示文字成分合并或不合并二分类损失值,Lreg表示文字实例的空间坐标回归损失值,λ是超参数;步骤4,制作训练样本集Mtrain;步骤5,制作真值集合Gs;步骤6,设置网络模型训练参数,将训练样本集Mtrain以及对应的真值集合Gs送入ICMN网络中进行训练,当目标函数L收敛或者达到迭代设置次数时,结束网络训练,输出网络模型MICMN;步骤7,从测试图像数据集TE={tej|j=1,2...J}中取出一张场景文字图像tej,用曲线文字提取算法对图像tej提取文字多边形,得到文字多边形成分集合其中表示PRj中的第m个文字多边形,M表示PRj中的文字多边形个数,把PRj中的各个作为输入,迭代送入网络模型MICMN中进行文字多边形成分合并,得到合并后的文字实例多边形集合其中表示Uj中的第v个文字实例多边形,V表示合并后的文字实例多边形个数,在图像tej中绘制输出Uj中的各文字实例多边形本专利技术的特点还在于:步骤2中ICMN网络结构设计的具体过程为:ICMN网络结构的总层数为7,包括1个输入层、1个池化层、2个全连接层、2个激活层、1个输出层,连接顺序为:输入层-池化层-全连接层-激活层-全连接层-激活层-输出层;输入层包括两部分,第一部分是一个多边形的14个边界点,14个边界点分为两半,一半是上边界点坐标,另一半是下边界点坐标,因为每个点有x和y两个坐标,故边界点构成的坐标特征大小为1×28,第二部分是另一个多边形的14个边界点,也构成1×28的坐标特征;池化层是把来自输入层的两个1×28的坐标特征串联形成一个大小为1×56的坐标特征;第一个全连接层的大小为56×48,第二个全连接层的大小为48×30;两个激活层使用的激活函数都是线性整流函数ReLU();输出层包括两部分,第一部分是大小为1×2的文字成分合并或不合并的置信度分数w,w的第一维数据w[0]表示合并的概率,第二维数据w[1]表示不合并的概率,第二部分是大小为1×28的预测合并的文字实例多边形q。步骤3中的计算损失函数值L的具体步骤如下:步骤3.1,计算分类损失值Lcls:其中表示训练样本集Mtrain中的第h个训练样本的标签值label,当第h个训练样本为正样本时,label=1,当第h个训练样本为负样本时,label=0,yh表示预测的第h个训练样本为正样本的概率,N*表示训练样本的个数;步骤3.2、计算回归损失值Lreg:其中Npos表示训练正样本的个数,和分别表示预测的第h个样本对应文字实例的第e个点的x和y坐标,和分别表示真值集合Gs中第h个真值中的第e个点的x和y坐标。步骤4中的制作训练样本集Mtrain的具体步骤如下:步骤4.1,使用曲线场景文本检测方法对曲线文字训练图像数据集TR={tri}中的各个文字图像tri进行曲线文字检测,得到多边形集合其中是PTi中的第k个文字多边形,即为一个文字多边形成分,K是PTi中的文字多边形个数,所有PTi中的多边形构成TR对应的文字多边形集合步骤4.2,制作正样本集合P:在多边形集合PTi中选择在图像tri中需要合并的相交或者相邻的两个多边形和构成一个正样本把Ts中所有的正样本加入到正样本集合P中,正样本个数记为Npos;步骤4.3,制作负样本集合N:在多边形集合PTi中选择在图像tri中不需要合并的两个多边形和构成一个负样本把Ts中所有的负样本加入到负样本集合N中,负样本个数记为Nneg;步骤4.4,训练样本集构成:从P和N中按照Ratio1的个数比例随机抽取正负样本构成训练样本集Mtrain,Mtrain中训练样本的总个数为Ntrain;步骤5的具体过程为:对训练文字图像数据集TR={tri}中的文字图像tri使用曲线文本标记工具进行文字实例多边形标记,所有标记的多边形构成图像tri中的文字实例多边形集合是Gi中的第z个文字实例多边形,Z是图像tri中文字实例多边形的总个数,TR中所有文字图像标记的文字实例多边形构成真值集合:真值个数记为Ngs。步骤6中的ICMN网络训练具体步骤如下:步骤6.1,输入训练样本集Mtrain和真值集合Gs;步骤6.2,创建训练标签文件Mlabel,训练标签文件Mlabel的格式为:每个变量之间用空格隔开,其中pic_idl本文档来自技高网
...

【技术保护点】
1.一种基于实例感知成分合并网络的曲线文字定位方法,其特征在于:具体包括如下步骤:/n步骤1,在场景文字数据集官网下载SCUT-CTW1500或Total-Text曲线场景文字图像数据集D,按I:J的个数比例将D划分为训练文字图像数据集TR={tr

【技术特征摘要】
1.一种基于实例感知成分合并网络的曲线文字定位方法,其特征在于:具体包括如下步骤:
步骤1,在场景文字数据集官网下载SCUT-CTW1500或Total-Text曲线场景文字图像数据集D,按I:J的个数比例将D划分为训练文字图像数据集TR={tri|i=1,2...I}和测试文字图像数据集TE={tej|j=1,2...J},其中tri是TR中的第i幅文字图像,tej是TE中的第j幅文字图像,I和J分别是TR和TE中的图像个数;
步骤2,设计一种ICMN网络结构;
步骤3,定义ICMN网络的目标损失函数L,L=Lcls+λLreg,其中Lcls表示文字成分合并或不合并二分类损失值,Lreg表示文字实例的空间坐标回归损失值,λ是超参数;
步骤4,制作训练样本集Mtrain;
步骤5,制作真值集合Gs;
步骤6,设置网络模型训练参数,将训练样本集Mtrain以及对应的真值集合Gs送入ICMN网络中进行训练,当目标函数L收敛或者达到迭代设置次数时,结束网络训练,输出网络模型MICMN;
步骤7,从测试图像数据集TE={tej|j=1,2...J}中取出一张场景文字图像tej,用曲线文字提取算法对图像tej提取文字多边形,得到文字多边形成分集合其中表示PRj中的第m个文字多边形,M表示PRj中的文字多边形个数,把PRj中的各个作为输入,迭代送入网络模型MICMN中进行文字多边形成分合并,得到合并后的文字实例多边形集合其中表示Uj中的第v个文字实例多边形,V表示合并后的文字实例多边形个数,在图像tej中绘制输出Uj中的各文字实例多边形


2.根据权利要求1所述的一种基于实例感知成分合并网络的曲线文字定位方法,其特征在于:所述步骤2的具体过程为:
ICMN网络结构的总层数为7,包括1个输入层、1个池化层、2个全连接层、2个激活层、1个输出层,连接顺序为:输入层-池化层-全连接层-激活层-全连接层-激活层-输出层;
所述输入层包括两部分,第一部分是一个多边形的14个边界点,14个边界点分为两半,一半是上边界点坐标,另一半是下边界点坐标,因为每个点有x和y两个坐标,故边界点构成的坐标特征大小为1×28,第二部分是另一个多边形的14个边界点,也构成1×28的坐标特征;
池化层是把来自输入层的两个1×28的坐标特征串联形成一个大小为1×56的坐标特征;
第一个全连接层的大小为56×48,第二个全连接层的大小为48×30;
两个激活层使用的激活函数都是线性整流函数ReLU();
输出层包括两部分,第一部分是大小为1×2的文字成分合并或不合并的置信度分数w,w的第一维数据w[0]表示合并的概率,第二维数据w[1]表示不合并的概率,第二部分是大小为1×28的预测合并的文字实例多边形q。


3.根据权利要求2所述的一种基于实例感知成分合并网络的曲线文字定位方法,其特征在于:所述步骤3中计算损失函数值L的具体步骤如下:
步骤3.1,计算分类损失值Lcls:



其中表示训练样本集Mtrain中的第h个训练样本的标签值label,当第h个训练样本为正样本时,label=1,当第h个训练样本为负样本时,label=0,yh表示预测的第h个训练样本为正样本的概率,N*表示训练样本的个数;
步骤3.2,计算回归损失值Lreg:



其中Npos表示训练正样本的个数,和分别表示预测的第h个样本对应文字实例的第e个点的x和y坐标,和分别表示真值集合Gs中第h个真值中的第e个点的x和y坐标。


4.根据权利要求3所述的一种基于实例感知成分合并网络的曲线文字定位方法,其特征在于:所述步骤4的具体过程如下:
步骤4.1,使用曲线场景文本检测方法对曲线文字训练图像数据集TR={tri}中的各个文字图像tri进行曲线文字检测,得到多边形集合其中是PTi中的第k个文字多边形,即为一个文字多边形成分,K是PTi中的文字多边形个数,所有PTi中的多边形构成TR对应的文字多边形集合
步骤4.2,制作正样本集合P:在多边形集合PTi中选择在图像tri中需要合并的相交或者相邻的两个多边形和构成一个正样本把Ts中所有的正样本加入到正样本集合P中,正样本个数记为Npos;
步骤4.3,制作负样本集合N:在多边形集合PTi中选择在图像tri中不需要合并的两个多边形和构成一个负样本把Ts中所有的负样本加入到负样本集合N中,负样本个数记为Nneg;
步骤4.4,训练样本集构成:从P和N中按照Ratio1的个数比例随机抽取正负样本构成训练样本集Mtrain,Mtrain中训练样本的总个数为Ntrain。


5.根据权利要求4所述的一种基于实例感知成分合并网络的曲线文字定位方法,其特征在于:所述步骤5的具体过程为:对训练文字图像数据集TR={tri}中的文字图像tri使用曲线文本标记工具进行文字实例多边形标记,所有标记的多边形构成图像tri中的文字实例多边形集合是Gi中的第z个文字实例多边形,Z是图像tri中文字实例多边形的总个数,TR中所有文...

【专利技术属性】
技术研发人员:赵凡闻治泉邵思迪张琳
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1