The present invention discloses a method of scene text detection based on super pixel stroke feature transformation and depth learning. The method includes the following steps: first, character region extraction: (1) super pixel based stroke feature transformation: (1) super pixel segmentation and clustering; (2) delete background region; (3) region thinning; Two) regional classification based on deep learning: (1) feature extraction; (2) feature fusion; (3) regional classification; two, text region detection: (1) candidate text region generation; (2) candidate text region classification. This method can not only realize text detection of different sizes in natural scenes, but also realize text detection with different colors in natural scenes, including text close to background color, and text detection in complex background, such as text detection in fields such as fences and windows.
【技术实现步骤摘要】
基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
本专利技术属于计算机科学与
,涉及一种场景文本检测方法,尤其涉及一种基于超像素的笔画特征变换(SSFT)和深度学习的区域分类(DLRC)的场景文本检测方法。
技术介绍
自然场景图像中文本检测的目的在于找出不同场景,如街道标志和路标中的文字位置。这是端到端的进行场景文本识别的一个最重要的步骤,它可以提供大量有用的指示信息,如帮助盲人和警告人。此外,有效的场景文本检测可以提高多种多媒体应用的性能,如移动视觉搜索、基于内容的图像检索、语义事件检测等。近年来,大量的场景文本检测方法已经发展起来,但在不同场景中成功地检测出文本仍然是计算机视觉界的一个难题,因为自然环境的不受约束如不同的文本大小、不同的文本颜色和复杂的背景。
技术实现思路
为了解决现有技术的上述问题,本专利技术提供了一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法。本专利技术的目的是通过以下技术方案实现的:一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法,包括如下步骤:一、字符区域提取(一)基于超像素的笔画特 ...
【技术保护点】
1.一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法,其特征在于所述方法步骤如下:一、字符区域提取(一)基于超像素的笔画特征变换(1)超像素分割和聚类a、将输入图像I∈RM×N调整到一个固定的高度h,并保持其纵横比,当高度大于h时,使用边缘保持过滤器平滑,图像被分割成K个超像素,使用线性迭代聚类算法使其在组合的颜色和图像平面空间中聚集像素,定义超像素S的颜色描述符如下:f=(r,g,b,l,a,b,h,s,v);式中,(r,g,b)、(l,a,b)和(h,s,v)分别是在RGB、CIELab和HSV颜色空间中像素的值,将每个分量线性归一化到[0,1]之间; ...
【技术特征摘要】
2018.01.23 CN 20181006512121.一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法,其特征在于所述方法步骤如下:一、字符区域提取(一)基于超像素的笔画特征变换(1)超像素分割和聚类a、将输入图像I∈RM×N调整到一个固定的高度h,并保持其纵横比,当高度大于h时,使用边缘保持过滤器平滑,图像被分割成K个超像素,使用线性迭代聚类算法使其在组合的颜色和图像平面空间中聚集像素,定义超像素S的颜色描述符如下:f=(r,g,b,l,a,b,h,s,v);式中,(r,g,b)、(l,a,b)和(h,s,v)分别是在RGB、CIELab和HSV颜色空间中像素的值,将每个分量线性归一化到[0,1]之间;b、用每对超像素之间的欧氏距离构造距离矩阵,基于此距离矩阵,利用平均链路层次聚类算法对超像素进行聚类,将原始图像分成不同的区域;(2)删除背景区域a、给定一个图像I∈RM×N,通过应用结构化随机决策林预测局部边缘,直接提取边缘概率图EPM∈[0,1]M×N和一个渐变方向图GOM∈[-π,π]M×N,其中每个像素的值分别表示其在原始图像中作为边缘点及其渐变方向的概率;b、将非极大值抑制应用到有像素的梯度方向的EPM,然后用一个低的阈值进行二值化,提取I的边缘图像E;c、利用距离变换对边缘图像E进行欧氏距离计算得到I的距离映射,并以DM表示;d、定义R和(w,h)表示一个区域及其边界矩形的大小,#(R)表示R中像素的个数,sum(DMp)和#(P)表示从距离映射DM获得的R边界上的像素距离值的总和以及R的边界上的像素数目,sum(DMp)/#(P)是从R边界上的像素到边缘的平均距离;e、使用步骤d中的定义,场景中的字符的以下先验用于删除大部分背景区域:①如果是字符区域,w/M和h/N不应超过阈值;②应该超过一个阈值;③如果一个区域不能满足①-③规则中的一个,就被视为一个背景区域;在对所有区域应用以上规则之后,大部分的背景区域被删除掉;(二)基于深度学习的候选字符区域分类(1)特征提取a、颜色特征根据候选区域及其边界矩形区域计算以下三个颜色特征向量:第一个颜色特征向量由RGB、CIELab和HSV颜色空间中候选区域的平均颜色组成,它是一个9维颜色特征向量;第二个颜色特征向量是从CIELab颜色空间中的CCR计算出的颜色分布的48维直方图,即48维颜色特征向量;第三个颜色特征向量是在CCR的边界矩形区域中的背景区域计算出的颜色分布的48维直方图,即48维颜色特征向量;b、纹理特征利用梯度直方图捕获区域的外观特征;c、几何特征提取以下几何特征区分字符区域和背景:1)候选区域的像素数与候选区域边界框的面积之比;2)候选区域边界框的纵横比:3)候选区域边界框的宽度和高度与输入图像的宽度和高度的比值;4)图像边界上的ccr的像素数与ccr的轮廓上的像素总数之比;5)CCR中像素的描边宽度的平均值和方差;d、深层特征使用用于深度特征提取的CNN从CCRs的边界矩形区域中学习深层的高级特征;(2)特征融合a、对于手工设计的特征融合,即颜色特征、纹理特征和几何特征的融合,首先将每个特征线性地标准化到[0,1],然后将它们输入一个由两个分别有256个节点和128个节点的fc层和一个softmax层组成的...
【专利技术属性】
技术研发人员:邬向前,卜巍,唐有宝,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。