一种基于全卷积神经网络的文本行中的字符切分方法技术

技术编号:22659322 阅读:46 留言:0更新日期:2019-11-28 03:37
本发明专利技术公开了一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:获取待检测的文本行图像区域;采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;获取所述分类结果中属于同一类别的分类结果;对所述同一类别的分类结果进行区域划分,获得划分结果;根据划分结果,获得文字切分结果。应用本发明专利技术实施例,能够有效的避免复杂背景区域以及噪声的干扰,对大小,间距不统一的多语言文字混和的文本行图像进行精确的字符切分。

A character segmentation method in text line based on full convolution neural network

The invention discloses a character segmentation method in a text line based on the full convolution neural network, the method includes: obtaining the text line image area to be detected; using the semantic segmentation model to classify the text line image area by pixels, obtaining the classification result; obtaining the classification result belonging to the same category in the classification result; and classifying the same category According to the results, the text segmentation results are obtained. The embodiment of the invention can effectively avoid the interference of complex background area and noise, and accurately segment the text line image with mixed multilingual text of different size and spacing.

【技术实现步骤摘要】
一种基于全卷积神经网络的文本行中的字符切分方法
本专利技术涉及图像处理
,尤其涉及一种基于全卷积神经网络的文本行中的字符切分方法。
技术介绍
随着移动终端和移动互联网的快速发展与广泛普及,通过摄像录像进行资讯的获取,分享和检索成为了现代人们的日常生活方式。在通过摄像头所获得的图像信息中,文字信息往往是用户首先会去注意和理解的内容,因此,通过识别图像中的文字信息能够使用户更方便的理解图片,同样也可以使图像文字转化为语音方便人们感受。近年来,文本行的文字分割和识别是通过传统的图像处理方式进行,处理前需要经过大量的预处理,包括降噪,增强对比度,灰度化,二值化等。文字切割包括:连通域算法,识别则通过规则和特征的匹配进行。由于人工设定的阈值,特征,规则受较多的主观因素影响,通用性较差,对于多种变化的复杂场景,包括:背景遮挡文字,切分文字,污损文字,粘连文字,传统的字符切分方法往往不尽人意。另外文字的形态变化如:艺术字,手写字,渐变色文字会对规则特征匹配产生较大的影响。因此,传统的字符切分方法在对复杂背景下的文本行中的字符进行切分时很容易会产生字符过切、漏切、错切等问题,导致字符切分的准确率较低。
技术实现思路
本专利技术的目的在于提供一种基于全卷积神经网络的文本行中的字符切分方法,旨在解决现有的字符进行切分时出现字符过切、漏切、错切的问题,通过将文本行图像缩放至不同尺度与对应大小的上采样层进行跳跃连接,以还原得到初始分辨率的特征信息图,在此过程中高级的语义特征信息和低级的边缘特征信息都能够保留。为了实现上述目的,本专利技术提供一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:获取待检测的文本行图像区域;采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;获取所述分类结果中属于同一类别的分类结果;对所述同一类别的分类结果进行区域划分,获得划分结果;根据划分结果,获得文字切分结果。进一步的,所述获取待检测的文本行图像区域的步骤,包括:获取待检测文本图像;对所述待检测文本图像进行预处理,获取所述待检测文本图像所对应的单行文本行;将所述单行文本行所组成的区域确定为待检测的文本行图像区域。进一步的,所述采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果步骤,包括:根据语义分割模型的编码器,提取所述文本行图像区域的文字边缘特征;根据语义分割模型中的解码器,对所述文字边缘特征信息进行空间位置还原和像素分类。进一步的,所述对所述同一类别的分类结果进行区域划分,获得划分结果,步骤包括:对连通区域进行标记搜索,在所述同一类别的分类结果中,查找连通区域并标记;获取相邻且具有相同特性的联通区域进行合并,并对合并区域进行标记。进一步的,所述根据划分结果,获得文字切分结果的步骤,包括:根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数,其中,所述位置参数包括:位置,高度和宽度;根据所述位置参数,确定文字所在的最小的矩形区域。进一步的,所述根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数的步骤,包括:根据文字和矩形框的对应关系,得到每个文字范围区域的四个边界,其中,所述四个边界为该文字所对应的上边界、下边界、左边界和右边界;根据坐标位置,计算文字字符块的高度和宽度。进一步的,语义分割模型的训练方法包括:接收样本图像和样本的标注信息;将样本图像输入神经网络中,获得预测结果;将所述预测结果与样本图像的标注信息进行损失函数的比较,获得损失值;根据损失值和随机梯度下降法,对神经网络中各个节点进行反向传播,并修改节点权重;根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络,获取所述语义预测模型。进一步的,所述语义预测模型的条件随机场所使用的能量函数表达为:θi(xi)=-logP(xi)其中,θi(xi)为一元势函数,P(xi)为语义分割模型输出的像素i的结果类别的概率值,θij(xi,xj)为二元势函数,f(xi,xj)用于判断i和j是否是同一个像素,如果是则函数输出为0,否则输出为1,是两个高斯滤波器,pi代表像素i的位置坐标,gi代表像素i的灰度值,三个超参数控制高斯滤波器的缩放尺度大小。应用本专利技术实施例提供的一种基于全卷积神经网络的文本行中的字符切分方法,结合了融合多尺度特征的全卷积神经网络和完全连接的条件随机场,通过计算相邻像素之间的位置与灰度分数来细化语义分割模型的输出结果,能够有效的避免复杂背景区域以及噪声的干扰,对大小,间距不统一的多语言文字混和的文本行图像进行精确的字符切分。附图说明图1是本专利技术实施例一种流程示意图。图2是本专利技术实施例一种结构示意图。图3是本专利技术实施例一种文本行图像输入示意图。图4是本专利技术实施例一种文本行图像输出示意图。图5是本专利技术实施例一种结果示意图。图6是本专利技术实施例另一种流程示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。请参阅图1-6。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。如图1本专利技术提供一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:S1010,获取待检测的文本行图像区域;需要说明的是,待检测图像可以是原始图像,也可以是经过灰度化等预处理后得到的图像,可以是不规则图像,大小尺寸可以不固定。进一步的,对待检测文本图像进行预处理,确定待检测文本图像为所对应的单行文本行,将单行文本行所组成的区域确定为待检测的文本行图像区域。S1020,采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;可以理解的是,通过语义分割模型中的编码器部分中的卷积层与池化层实现对待检测文本图像中的文字边缘特征信息进行提取。通过使用语义分割模型中的解码器部分中的转置卷积层与上采样层以及条件随机场实现对提取的文字边缘特征信息进行空间位置的还原和像素级别的分类。进一步的,所述的基于多尺度的全卷积网络,其多尺度的实现包括使用将文本行图像缩放不同的比例使其尺寸和特征图的尺寸大小一致后连接合并或者通过在编码器和解码器中相应的层中加入跳跃结构。本专利技术的一种实现方式中,所述的条件随机场,是一种全连接的条件随机场,这种本文档来自技高网...

【技术保护点】
1.一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述方法包括:/n获取待检测的文本行图像区域;/n采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;/n获取所述分类结果中属于同一类别的分类结果;/n对所述同一类别的分类结果进行区域划分,获得划分结果;/n根据划分结果,获得文字切分结果。/n

【技术特征摘要】
1.一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述方法包括:
获取待检测的文本行图像区域;
采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;
获取所述分类结果中属于同一类别的分类结果;
对所述同一类别的分类结果进行区域划分,获得划分结果;
根据划分结果,获得文字切分结果。


2.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述获取待检测的文本行图像区域的步骤,包括:
获取待检测文本图像;
对所述待检测文本图像进行预处理,获取所述待检测文本图像所对应的单行文本行;
将所述单行文本行所组成的区域确定为待检测的文本行图像区域。


3.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果步骤,包括:
根据语义分割模型的编码器,提取所述文本行图像区域的文字边缘特征;
根据语义分割模型中的解码器,对所述文字边缘特征信息进行空间位置还原和像素分类。


4.根据权利要求2所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述对所述同一类别的分类结果进行区域划分,获得划分结果,步骤包括:
对连通区域进行标记搜索,在所述同一类别的分类结果中,查找连通区域并标记;
获取相邻且具有相同特性的联通区域进行合并,并对合并区域进行标记。


5.根据权利要求3所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述根据划分结果,获得文字切分结果的步骤,包括:
根据文字的类别标记,获取文字字符块,并记录所...

【专利技术属性】
技术研发人员:刘晋余超
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1