一种竖排文字的定位系统及方法技术方案

技术编号:24757956 阅读:67 留言:0更新日期:2020-07-04 09:33
本发明专利技术提供一种竖排文字的定位系统及方法,涉及深度学习技术领域,包括:数据获取模块,对获取的各竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;数据生成模块,对各竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各条状真值框关联的前景真实概率;模型训练模块,将各竖排文字标注图像作为输入,将对应的各条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;数据预测模块,将待预测竖排文字图像输入竖排文字定位模型得到待预测竖排文字的预测框,以及预测框对应的前景预测概率,并根据预测框和前景预测概率处理得到待预测竖排文字图像的定位框。有益效果是能够准确检测垂直方向的竖排文字。

A vertical text positioning system and method

【技术实现步骤摘要】
一种竖排文字的定位系统及方法
本专利技术涉及深度学习
,尤其涉及一种竖排文字的定位系统及方法。
技术介绍
自然场景文字定位时文字识别中非常重要的一部分,与通用的物体检测相比,自然场景下文字定位有更大的挑战性,文字在颜色、字体、长宽比、尺度、光照条件和方向上与更大的变化范围。随着深度学习技术在物体识别和检测等计算机视觉任务方面已经取得重大进展,许多基于卷积神经网络的目标检测方法,比如FasterRCNN、SSD和FPN等已经用在文本定位领域,并且在性能上远远超过传统方法。现有的自然场景文字检测方法大致可以分为三类,一是基于分割的文本定位方法,提出了全卷积网络的概念,基于分割的文本定位方法大都受到全卷积网络的启发,当全卷积网络被用于图文识别任务时,最后一层特征图每个像素被分成文字和非文字的文本块,然后再利用MSER提取候选字符区域,再结合候选字符的文本框生成每个每条文本行。二是基于文本框回归的文本定位方法,基于SSD框架在多个尺度的特征图上并行预测文本框,然后对预测结果做NMS过滤。三是基于FasterRCNN,加入了双向LS本文档来自技高网...

【技术保护点】
1.一种竖排文字的定位系统,其特征在于,具体包括:/n数据获取模块,用于获取若干竖排文字图像,并分别对各所述竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;/n数据生成模块,连接所述数据获取模块,用于分别对各所述竖排文字标注图像的所述竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各所述条状真值框关联的前景真实概率;/n模型训练模块,分别连接所述数据获取模块和所述数据生成模块,用于将各所述竖排文字标注图像作为输入,将对应的各所述条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;/n数据预测模块,连接所述模型训练模型,用于将待预测竖排文字图像输入所述竖排文字...

【技术特征摘要】
1.一种竖排文字的定位系统,其特征在于,具体包括:
数据获取模块,用于获取若干竖排文字图像,并分别对各所述竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;
数据生成模块,连接所述数据获取模块,用于分别对各所述竖排文字标注图像的所述竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各所述条状真值框关联的前景真实概率;
模型训练模块,分别连接所述数据获取模块和所述数据生成模块,用于将各所述竖排文字标注图像作为输入,将对应的各所述条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;
数据预测模块,连接所述模型训练模型,用于将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率,并根据所述预测框和所述前景预测概率处理得到所述待预测竖排文字图像的定位框。


2.根据权利要求1所述的竖排文字的定位系统,其特征在于,所述数据生成模块具体包括:
数据增强单元,用于对各所述竖排文字标注图像进行图像缩放处理,得到竖排文字缩放图像;
坐标计算单元,连接所述数据增强单元,用于根据各所述竖排文字缩放图像中的所述竖排文字真值框分别计算得到各所述竖排文字真值框的凸包坐标;
数据处理单元,连接所述坐标计算单元,用于针对每个所述竖排文字真值框,根据所述凸包坐标对所述竖排文字真值框在垂直方向进行处理,得到若干条状真值框;
概率获取单元,连接所述数据处理单元,用于获取各所述条状真值框关联的前景真实概率。


3.根据权利要求1所述的竖排文字的定位系统,其特征在于,所述模型训练模块具体包括:
数据准备单元,用于预先建立前馈网络模型以及生成若干锚框;
样本获取单元,连接所述数据准备单元,用于根据所述锚框和各所述条状真值框对各所述竖排文字标注图像进行正负样本均衡,得到若干正样本和若干负样本;
损失计算单元,分别连接所述数据准备单元和所述样本获取单元,用于根据各所述正样本和各所述负样本对所述前馈网络模型进行训练,并在训练过程中,计算相应的边框损失函数和类别损失函数;
参数更新单元,分别连接所述样本获取单元和所述损失计算单元,用于根据所述边框损失函数和所述类别损失函数,采用反向传播算法对所述前馈网络模型进行参数更新,并根据各所述正样本和各所述负样本对参数更新后的所述前馈网络模型继续进行训练,直至训练结束得到竖排文字定位模型。


4.根据权利要求3所述的竖排文字的定位系统,其特征在于,各所述锚框具有相同的预设固定高度。


5.根据权利要求1所述的竖排文字的定位系统,其特征在于,所述数据预测模块具体包括:
数据预测单元,用于将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率;
第一筛选单元,连接所述数据预测单元,用于在所述预测框的框选区域为所述待预测竖排文字图像的子集合时,将所述预测框作为第一候选框输出,以及在所述预测框的尺寸不小于预设尺寸阈值时,将所述预测框作为所述第一候选框输出;
第二筛选单元,分别连接所述数据预测单元和所述第一筛选单元,用于提取各所述第一候选框对应的各所述前景预测概率,并将各所述前景预测概率按照由大到小的顺序排列形成预测概率队列;
数据过滤单元,连接所述第二筛选单元,用于将所述预测概率队列中排名靠前的预设数量的所述前景预测概率对应的各所述第一候选框,通过非极大值抑制算法进行过滤,得到第二候选框;
数据处理单元,连接所述数据过滤单元,用于根据各所述第二候选框并采用文本线构造法处理得到所述待预测竖排...

【专利技术属性】
技术研发人员:王昊黄明飞姚宏贵
申请(专利权)人:开放智能机器上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1