当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于自学习色彩聚类的自然场景文本检测的方法技术

技术编号:15691498 阅读:96 留言:0更新日期:2017-06-24 04:45
本发明专利技术提供了一种基于自学习色彩聚类的自然场景文本检测的方法,首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符,该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率。然后,通过训练Adaboost分类器,构建字符验证模型,移除非文本字符;最后,合并字符构建文本行,并通过后处理得到文本检测结果。与传统的方法相比,本方法能获得较高的文本检测召回率,且检测的文本结果较为准确。

A method of text detection in natural scenes based on self-learning color clustering

The present invention provides a method of natural scene text detection self-learning color clustering based on first, the hierarchical clustering and parameter self-learning strategy combination, design an adaptive color clustering method, candidate characters are extracted from the image, the adaptive color clustering method for weight threshold automatic learning of different images, good character recall. Then, the Adaboost classifier is trained to construct the character verification model to remove the non text characters. Finally, the merged characters are used to construct the text lines, and the text detection results are obtained by post-processing. Compared with the traditional methods, this method can achieve higher recall rate of text detection, and the results of text detection are more accurate.

【技术实现步骤摘要】
一种基于自学习色彩聚类的自然场景文本检测的方法
本专利技术属于模式识别
,涉及一种基于自学习色彩聚类的自然场景文本检测方法。
技术介绍
自然场景图像文本包含大量有效信息,提取图像文本是图像内容分析和理解的重要前提,并可广泛应用于车牌检测、无人驾驶、基于内容的图像检索、手机文本识别和机器人自动导航等领域。然而,由于自然场景图像文本检测方法受到多方面的因素影响,增加了文本检测的难度,其中影响因素主要分为以下三类:复杂的图像背景:图像采集于任意的场景,不同图像中色彩复杂程度各异,且存在大量的树叶、砖头、栏杆和瓦片等干扰物体,易导致文本检测错误。多样化的文本:自然场景图像中文本尺寸大小和样式的多样化,且文本字符存在不同程度的扭曲和倾斜。不同程度的干扰因素:自然场景图像为户外拍摄采集得到,易受不同程度的光照、阴影、分辨率和拍摄角度的影响。为克服上述影响因素,提高文本检测的准确率,专家学者提出了大量的自然场景文本检测方法,主要分为两类:基于滑动窗口的方法和基于连通域的方法。基于滑动窗口的文本检测方法通常使用多尺度滑动窗口,扫描原始图像,提取候选文本区域,然后结合候选区域色彩、梯度和纹理等特征,利用机器学习的方法进行验证,得到文本检测结果。由于图像中文本尺寸的多样性,基于滑动窗口的方法通常使用多尺度窗口扫描图像,提取候选文本,使得该方法耗时长,产生的候选区域过多,增大了后续文本验证的难度。基于连通域的方法是目前较为流行的文本检测方法。该方法进一步分为三个子任务:(1)候选字符提取,(2)候选字符验证,(3)文本区域分析。候选字符提取通常考虑图像中文本字符包含的像素点具有灰度一致性、色彩一致性、笔画宽度均一性等特征,进而提取特征相似的像素点,构建候选字符连通域。候选字符验证通常通过对字符和背景区域进行分析,提取一系列易于区分背景和文本的特征,并结合机器学习的方法验证候选字符连通域,移除非文本字符。文本区域分析通常是对验证后保留的字符进行后处理操作。一般,通过分析字符连通域的空间位置,色彩、纹理等特征,将位置、色彩和纹理相近的字符进行合并,构成文本行,然后使用启发式规则和机器学习的方式对文本行进行分词和验证,得到最终的检测结果。由于自然场景图像背景复杂多变,图像中文本色彩、字体、尺寸等多样化,且受到不同程度的光照、阴影、拍摄角度的影响。因此,如何从不同复杂程度的背景中有效提取提取候选字符,是基于连通区域文本检测方法的关键。
技术实现思路
本专利技术提供了一种基于自学习色彩聚类的文本检测方法,为了克服上述现有文本检测方法存在的问题,本方法将层次聚类和参数自学习策略相结合,实现自适应色彩聚类算法,构建色彩层,提取色彩层中的连通区域,作为候选字符,进而定位图像中的文本。一种基于自学习色彩聚类的自然场景文本检测方法,包括以下步骤:步骤1:将待进行文本检测图像I中的每个像素点的R、G、B色彩值投影到三维色彩空间中,对三维色彩空间进行等间距划分,每个三维色彩空间立方体作为一个层次聚类基本单元;以每个三维色彩空间立方体中所有像素点的色彩均值作为层次聚类基本单元的特征c;c=(μ(r),μ(g),μ(b)),其中μ(r)、μ(g)和μ(b)分别为层次聚类基本单元中所有像素点的R、G、B色彩均值;步骤2:初始化层次聚类基本单元的特征权重向量w,w=(wr,wg,wb,wθ);其中,wr,wg,wb分别为层次聚类基本单元像素点的R、G、B的色彩距离权重,wθ为聚类阈值;步骤3:以层次聚类基本单元的特征权重向量w,依次计算任意两个层次聚类基本单元之间的颜色距离;di,j=wr|μi(r)-μj(r)|+wg|μi(g)-μj(g)|+wb|μi(b)-μj(b)|其中,μi和μj分别表示i和j个层次聚类基本单元;步骤4:将颜色距离最小的两个层次聚类基本单元进行合并,获得新的层次聚类基本单元,并计算新的层次聚类基本单元的特征c,以层次聚类基本单元合并构建对应的层次聚类树,返回步骤3,直到层次聚类基本单元数量为1;步骤5:构建正样本和负样本的特征向量;依据聚类阈值wθ,对步骤4中构建的层次聚类树进行划分,得到层次聚类森林,以层次聚类森林中同一棵子树下的任意两个初始的层次聚类基本单元的颜色距离作为正样本的特征向量,以层次聚类森林中不同子树下的任意两个初始的层次聚类基本单元的颜色距离作为负样本的特征向量;步骤6:利用层次聚类基本单元的特征权重向量w的当前取值,并采用激活函数对步骤5构建的正样本和负样本的特征向量进行样本类别预测,并利用样本类别预测值和样本本身的类别属性,构建权重向量w的似然函数,通过最大化似然函数求得新的层次聚类基本单元的特征权重向量w,若更新后的w使得构建的似然函数的最大值收敛,则以新的层次聚类基本单元的特征权重向量w,重新构建层次聚类森林,否则,返回步骤3;为了方便求解似然函数,对似然函数两边取对数,得到对数似然函数:使用随机梯度上升法,最大化对数似然函数l(w),求解权重向量w。步骤7:依次以步骤6获得的层次聚类森林中每一颗子树包含的所有初始层次聚类单元中像素点进行合并,构建对应的色彩层;步骤8:从每个色彩层中提取连通域,得到候选字符,用分类器对候选字符进行筛选,对经过筛选后的候选字符进行字符合并,得到文本行;对文本行进行单词划分,得到文本检测结果。进一步地,所述步骤6中采用的激活函数为逻辑回归函数:其中,hw(x)为输入向量x对应样本的预测结果;x为输入向量,由正样本或负样本的特征向量和截距项-1组成,x=(|μi(r)-μj(r)|,|μi(g)-μj(g)|,|μi(b)-μj(b)|,-1)。进一步地,所述步骤6中构建的权重向量w的似然函数如下:其中,p(y(i)|x(i);w)是x关于参数w的概率密度函数,x(i)和y(i)分别表示第i个样本的输入向量和样本本身属性类别,n为样本总量;y(i)取值为0或1,0表示负样本,1表示正样本。进一步地,所述步骤8中用于对候选字符进行筛选的分类器为Adaboost分类器,采用如下过程训练获得:首先,将ICDAR2013数据库中训练集的每一幅图像执行步骤1-7,从得到的色彩层中提取候选字符;然后,将候选字符与真实标定的字符进行像素点匹配,构建训练正负样本集合;接着,从训练正负样本集合中,随机选取30000个训练正样本和30000个训练负样本作为构建Adaboost分类器的训练集;最后,提取训练集中每一个样本的几何特征和HOG特征,训练Adaboost分类器,得到用于验证候选字符的Adaboost分类器。进一步地,所述用分类器对候选字符进行筛选,是指提取每一个候选字符的几何特征和HOG特征,输入训练好的Adaboost分类器进行候选字符验证,移除非文本字符,保留文本字符。进一步地,所述对经过筛选后的候选字符进行字符合并,得到文本行的具体过程如下:将验证之后的字符两两组合,形成字符对,将宽高比、水平距离和颜色距离满足以下条件的字符对视为文本字符对,合并包含相同连通域的文本字符对,构建文本行:|mean(R1)-mean(R2)|<80其中,w(·)和h(·)分别表示字符的宽度和高度;hd和vd分别表示字符区域R1和R2两个中心点之间的水平距离和垂直距离;mean(R)表本文档来自技高网
...
一种基于自学习色彩聚类的自然场景文本检测的方法

【技术保护点】
一种基于自学习色彩聚类的自然场景文本检测方法,其特征在于,包括以下步骤:步骤1:将待进行文本检测图像I中的每个像素点的R、G、B色彩值投影到三维色彩空间中,对三维色彩空间进行等间距划分,每个三维色彩空间立方体作为一个层次聚类基本单元;以每个三维色彩空间立方体中所有像素点的色彩均值作为层次聚类基本单元的特征c;步骤2:初始化层次聚类基本单元的特征权重向量w,w=(w

【技术特征摘要】
1.一种基于自学习色彩聚类的自然场景文本检测方法,其特征在于,包括以下步骤:步骤1:将待进行文本检测图像I中的每个像素点的R、G、B色彩值投影到三维色彩空间中,对三维色彩空间进行等间距划分,每个三维色彩空间立方体作为一个层次聚类基本单元;以每个三维色彩空间立方体中所有像素点的色彩均值作为层次聚类基本单元的特征c;步骤2:初始化层次聚类基本单元的特征权重向量w,w=(wr,wg,wb,wθ);其中,wr,wg,wb分别为层次聚类基本单元像素点的R、G、B的色彩距离权重,wθ为聚类阈值;步骤3:以层次聚类基本单元的特征权重向量,依次计算任意两个层次聚类基本单元之间的颜色距离;步骤4:将颜色距离最小的两个层次聚类基本单元进行合并,获得新的层次聚类基本单元,并计算新的层次聚类基本单元的特征c,以层次聚类基本单元合并构建对应的层次聚类树,返回步骤3,直到层次聚类基本单元数量为1;步骤5:构建正样本和负样本的特征向量;依据聚类阈值wθ,对步骤4中构建的层次聚类树进行划分,得到层次聚类森林,以层次聚类森林中同一棵子树下的任意两个初始的层次聚类基本单元的颜色距离作为正样本的特征向量,以层次聚类森林中不同子树下的任意两个初始的层次聚类基本单元的颜色距离作为负样本的特征向量;步骤6:利用层次聚类基本单元的特征权重向量w的当前取值,并采用激活函数对步骤5构建的正样本和负样本的特征向量进行样本类别预测,并利用样本类别预测值和样本本身的类别属性,构建权重向量w的似然函数,通过最大化似然函数求得新的层次聚类基本单元的特征权重向量w,若更新后的w使得构建的似然函数的最大值收敛,则以新的层次聚类基本单元的特征权重向量w,重新构建层次聚类森林,否则,返回步骤3;步骤7:依次以步骤6获得的层次聚类森林中每一颗子树包含的所有初始层次聚类单元中像素点进行合并,构建对应的色彩层;步骤8:从每个色彩层中提取连通域,得到候选字符,用分类器对候选字符进行筛选,对经过筛选后的候选字符进行字符合并,得到文本行;对文本行进行单词划分,得到文本检测结果。2.根据权利要求1所述的方法,其特征在于,所述步骤6中采用的激活函数为逻辑回归函数:其中,hw(x)为输入向量x对应样本的预测结果;x为输入向量,由正样本或负样本的特征向量和截距项-1组成,x=(|μi(r)-μj(r)|,|μi(g)-μj(g)|,|μi(b)-μj(b)|,-1)。3.根据权利要求2所述的方法,其特征在于,所述步骤6中构建的权重向量w的似然函数如下:

【专利技术属性】
技术研发人员:郭建京邹北骥吴慧杨文君徐子雯
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1