当前位置: 首页 > 专利查询>河南大学专利>正文

自然场景中商铺标牌汉字区域自动检测方法技术

技术编号:13290527 阅读:41 留言:0更新日期:2016-07-09 09:09
本发明专利技术公开了一种自然场景中商铺标牌汉字区域自动检测方法,包括以下步骤:A、获取反映采样区图像主要像素颜色的向量V1和V2;B、利用向量V1和V2确定原始图像的背景轮廓;C、将HSV颜色空间划分为黑色、白色、红色、黄色、绿色、青色、蓝色、品红八块颜色空间;D、对原始图像进行颜色分层,得到8张颜色分布二值图;E、对8张颜色分布二值图进行汉字连通域分析,获得8张文本行二值图;F、对各张文本行二值图中不符合汉字书写规则的文本行进行过滤,得到精化后的汉字区域;G、将不同颜色的精化汉字区域进行融合,获得原始图像中的汉字区域。本发明专利技术能够有效提高汉字区域检测的准确度,对基于自然场景下的汉字识别的应用具有重要意义。

【技术实现步骤摘要】

本专利技术涉及自然场景下的图像处理
,尤其涉及一种自然场景中商铺标牌汉字区域自动检测方法
技术介绍
近年来,随着智能设备的普及,人们可以方便地在自然场景中拍摄各种图片。图片中的文字是图像包含的重要信息,因而对图像中的文字进行检测进而准确识别,非常有助于对图像内容的理解。虽然现有的OCR文字识别技术已经趋于成熟,但由于自然场景下的拍摄可能存在光照不均、角度不正和严重反光等一系列问题,同时拍摄的图片背景复杂,往往包含多种字体、字号甚至变形文字,使得OCR对自然场景下的文字检测达不到理想的效果。
技术实现思路
本专利技术的目的在于提供一种自然场景中商铺标牌汉字区域自动检测方法,能够准确检测自然场景中商铺标牌上的汉字区域,提高对街景图像进行自动标注及图像理解的效率。为实现上述目的,本专利技术采用的技术方案是:自然场景中商铺标牌汉字区域自动检测方法,包括以下步骤:A、扫描自然场景中的商铺标牌获得原始图像,从原始图像上截取矩形的采样区图像,并将采样区图像的RGB三通道展开,形成M*N行3列的矩阵,其中M为采样区图像的宽度,N为采样区图像的高度,分别将矩阵的每一行作为三维空间的一个点进行Kmeans聚类,设定聚类的类别数为2,得到两个聚类中心点,分别为向量V1和V2,然后进入步骤B;B、分别计算原始图像的每个像素点到向量V1和V2的距离,并创建两张与原始图像大小相同的初始化二值图bg1和bg2,初始化二值图bg1和bg2中所有像素点的像素值均为0,设定距离阈值X,依次比较原始图像的每个像素点到向量V1的距离与X的大小关系,当原始图像的像素点到向量V1的距离小于X时,在初始化二值图bg1中将与该像素点坐标相同的像素点的像素值置为1,得到粗轮廓二值图BG1;依次比较原始图像的每个像素点到向量V2的距离与X的大小关系,当原始图像的像素点到向量V2的距离小于X时,在初始化二值图bg2中将与该像素点坐标相同的像素点的像素值置为1,得到粗轮廓二值图BG2,分别对粗轮廓二值图BG1和BG2做形态学处理并进行连通域分析,从粗轮廓二值图BG1和BG2中选出面积最大的连通域进行修复和填充后作为背景轮廓,得到背景轮廓二值图;C、将HSV颜色空间划分为黑色、白色、红色、黄色、绿色、青色、蓝色、品红八块颜色空间,八块颜色空间的划分规则如下:黑色空间,v<0.3or(v<0.5ands<=0.25);白色空间,v>=0.5ands<=0.25;红色空间,(h<1/12orh>=11/12)andv>0.3ands>=0.25;黄色空间,h>=1/12andh<3/12andv>0.3ands>=0.25;绿色空间,h>=3/12andh<5/12andv>0.3ands>=0.25;青色空间,h>=5/12andh<7/12andv>0.3ands>=0.25;蓝色空间,h>=7/12andh<9/12andv>0.3ands>=0.25;品红空间,h>=9/12andh<11/12andv>0.3ands>=0.25;式中h代表HSV颜色空间中的色调,s代表HSV颜色空间中的饱和度,v代表HSV颜色空间中的明度,然后进入步骤D;D、创建8张与原始图像大小相同的二值图,并将每张二值图上所有像素点的像素值置为0,将原始图像从RGB空间转换到HSV颜色空间中,然后判断HSV颜色空间中原始图像的每个像素点所属的颜色类型,将属于同一颜色类型的所有像素点映射到一张二值图的对应位置处,并将二值图上对应位置处的像素点的像素值置为1,最后得到8张颜色分布二值图,然后进入步骤E;E、将8张颜色分布二值图分别与背景轮廓二值图做与运算后再进行形态学处理,滤除8张颜色分布二值图中的细小沟壑和细线,得到8张细轮廓分布二值图,分别对8张细轮廓分布二值图进行连通域扫描,利用八连通标记法得到连通图对应的标记图,并计算每个连通域的属性,然后对8张细轮廓分布二值图中不符合汉字笔画特征的连通域进行过滤,得到8张笔画级分布二值图,分别对每一张笔画级分布二值图中符合汉字笔画特征的连通域进行合并,将合并后的多个连通域记为一个标记区域并确定标记值,对于任意两个标记区域,若一个标记区域的质心坐标位于另一个标记区域的最小外接矩形内,则将该标记区域的标记值置为另一个标记区域的标记值,最后对于每一张笔画级分布二值图,依次将标记值相同的标记区域记为一个文本行,获得8张文本行二值图,然后进入步骤F;F、对于8张文本行二值图中的任意一个文本行,当文本行的最小外接矩形的高度小于背景轮廓的最小外接矩形高度的1/20、文本行的最小外接矩形的宽高比小于7/10或者文本行的面积与其最小外接矩形的面积比小于1/10或大于4/5时,将该文本行从对应的文本行二值图上删除,得到的8张字符图像二值图,分别计算每一张字符图像二值图中所有文本行的面积和,当计算得到的面积和小于背景轮廓二值图的最小外接矩形面积的1/200时,将对应的字符图像二值图删除,并分别计算剩余的字符图像二值图中所有文本行的最小外接矩形的坐标,然后进入步骤G;G、创建一张与原始图像大小相同的空白图像,依次将剩余的字符图像二值图中所有文本行的最小外接矩形标记在空白图像的相应位置处,得到初级识别图像,分别将初级识别图像中由两个以上最小外接矩形组成的边界呈不规则多边形的独立区域作为一个识别区域,对于每一个识别区域,统计各个顶点的坐标,并从顶点坐标中选出x坐标的最小值记为xmin,选出x坐标的最大值记为xmax,选出y坐标的最小值记为ymin,选出y坐标的最大值记为ymax,以(xmin,ymin),(xmax,ymin),(xmin,ymax),(xmax,ymax)四个坐标作为顶点创建矩形区域,则从各个识别区域中得到的所有矩形区域以及初级识别图像中剩余的最小外接矩形组成的区域即为原始图像中的汉字区域。所述的步骤A包括以下步骤:A1、扫描自然场景中的商铺标牌获得原始图像,在扫描线上大于1/3长度小于2/3长度的区段内任取一点作为基点,以此基点为中心点构建一个R*kR的矩形采样区,其中R为矩形采样区的宽度,R的取值大于原始图像宽度的1/7,小于原始图像宽度的1/4,k为矩形采样区的宽高比,k的取值范围为1/4<k<4,从原始图像中裁剪矩形采样区,获得本文档来自技高网...
自然场景中商铺标牌汉字区域自动检测方法

【技术保护点】
自然场景中商铺标牌汉字区域自动检测方法,其特征在于,包括以下步骤:A、扫描自然场景中的商铺标牌获得原始图像,从原始图像上截取矩形的采样区图像,并将采样区图像的RGB三通道展开,形成M*N行3列的矩阵,其中M为采样区图像的宽度,N为采样区图像的高度,分别将矩阵的每一行作为三维空间的一个点进行Kmeans聚类,设定聚类的类别数为2,得到两个聚类中心点,分别为向量V1和V2,然后进入步骤B;B、分别计算原始图像的每个像素点到向量V1和V2的距离,并创建两张与原始图像大小相同的初始化二值图bg1和bg2,初始化二值图bg1和bg2中所有像素点的像素值均为0,设定距离阈值X,依次比较原始图像的每个像素点到向量V1的距离与X的大小关系,当原始图像的像素点到向量V1的距离小于X时,在初始化二值图bg1中将与该像素点坐标相同的像素点的像素值置为1,得到粗轮廓二值图BG1;依次比较原始图像的每个像素点到向量V2的距离与X的大小关系,当原始图像的像素点到向量V2的距离小于X时,在初始化二值图bg2中将与该像素点坐标相同的像素点的像素值置为1,得到粗轮廓二值图BG2,分别对粗轮廓二值图BG1和BG2做形态学处理并进行连通域分析,从粗轮廓二值图BG1和BG2中选出面积最大的连通域进行修复和填充后作为背景轮廓,得到背景轮廓二值图;C、将HSV颜色空间划分为黑色、白色、红色、黄色、绿色、青色、蓝色、品红八块颜色空间,八块颜色空间的划分规则如下:黑色空间,v<0.3or(v<0.5and s<=0.25);白色空间,v>=0.5and s<=0.25;红色空间,(h<1/12or h>=11/12)and v>0.3and s>=0.25;黄色空间,h>=1/12and h<3/12and v>0.3and s>=0.25;绿色空间,h>=3/12and h<5/12and v>0.3and s>=0.25;青色空间,h>=5/12and h<7/12and v>0.3and s>=0.25;蓝色空间,h>=7/12and h<9/12and v>0.3and s>=0.25;品红空间,h>=9/12and h<11/12and v>0.3and s>=0.25;式中h代表HSV颜色空间中的色调,s代表HSV颜色空间中的饱和度,v代表HSV颜色空间中的明度,然后进入步骤D;D、创建8张与原始图像大小相同的二值图,并将每张二值图上所有像素点的像素值置为0,将原始图像从RGB空间转换到HSV颜色空间中,然后判断HSV颜色空间中原始图像的每个像素点所属的颜色类型,将属于同一颜色类型的所有像素点映射到一张二值图的对应位置处,并将二值图上对应位置处的像素点的像素值置为1,最后得到8张颜色分布二值图,然后进入步骤E;E、将8张颜色分布二值图分别与背景轮廓二值图做与运算后再进行形态学处理,滤除8张颜色分布二值图中的细小沟壑和细线,得到8张细轮廓分布二值图,分别对8张细轮廓分布二值图进行连通域扫描,利用八连通标记法得到连通图对应的标记图,并计算每个连通域的属性,然后对8张细轮廓分布二值图中不符合汉字笔画特征的连通域进行过滤,得到8张笔画级分布二值图,分别对每一张笔画级分布二值图中符合汉字笔画特征的连通域进行合并,将合并后的多个连通域记为一个标记区域并确定标记值,对于任意两个标记区域,若一个标记区域的质心坐标位于另一个标记区域的最小外接矩形内,则将该标记区域的标记值置为另一个标记区域的标记值,最后对于每一张笔画级分布二值图,依次将标记值相同的标记区域记为一个文本行,获得8张文本行二值图,然后进入步骤F;F、对于8张文本行二值图中的任意一个文本行,当文本行的最小外接矩形的高度小于背景轮廓的最小外接矩形高度的1/20、文本行的最小外接矩形的宽高比小于7/10或者文本行的面积与其最小外接矩形的面积比小于1/10或大于4/5时,将该文本行从对应的文本行二值图上删除,得到的8张字符图像二值图,分别计算每一张字符图像二值图中所有文本行的面积和,当计算得到的面积和小于背景轮廓二值图的最小外接矩形面积的1/200时,将对应的字符图像二值图删除,并分别计算剩余的字符图像二值图中所有文本行的最小外接矩形的坐标,然后进入步骤G;G、创建一张与原始图像大小相同的空白图像,依次将剩余的字符图像二值图中所有文本行的最小外接矩形标记在空白图像的相应位置处,得到初级识别图像,分别将初级识别图像中由两个以上最小外接矩形组成的边界呈不规则多边形的独立区域作为一个识别区域,对于每一个识别区域,统计各个顶点的坐标,并从顶点坐标中选出x坐标的最...

【技术特征摘要】
1.自然场景中商铺标牌汉字区域自动检测方法,其特征在于,包括以下步骤:
A、扫描自然场景中的商铺标牌获得原始图像,从原始图像上截取矩形的采样区图像,并将采
样区图像的RGB三通道展开,形成M*N行3列的矩阵,其中M为采样区图像的宽度,N为采
样区图像的高度,分别将矩阵的每一行作为三维空间的一个点进行Kmeans聚类,设定聚类的
类别数为2,得到两个聚类中心点,分别为向量V1和V2,然后进入步骤B;
B、分别计算原始图像的每个像素点到向量V1和V2的距离,并创建两张与原始图像大小相同
的初始化二值图bg1和bg2,初始化二值图bg1和bg2中所有像素点的像素值均为0,设定距
离阈值X,依次比较原始图像的每个像素点到向量V1的距离与X的大小关系,当原始图像的
像素点到向量V1的距离小于X时,在初始化二值图bg1中将与该像素点坐标相同的像素点的
像素值置为1,得到粗轮廓二值图BG1;依次比较原始图像的每个像素点到向量V2的距离与
X的大小关系,当原始图像的像素点到向量V2的距离小于X时,在初始化二值图bg2中将与
该像素点坐标相同的像素点的像素值置为1,得到粗轮廓二值图BG2,分别对粗轮廓二值图
BG1和BG2做形态学处理并进行连通域分析,从粗轮廓二值图BG1和BG2中选出面积最大的
连通域进行修复和填充后作为背景轮廓,得到背景轮廓二值图;
C、将HSV颜色空间划分为黑色、白色、红色、黄色、绿色、青色、蓝色、品红八块颜色空间,
八块颜色空间的划分规则如下:
黑色空间,v<0.3or(v<0.5ands<=0.25);
白色空间,v>=0.5ands<=0.25;
红色空间,(h<1/12orh>=11/12)andv>0.3ands>=0.25;
黄色空间,h>=1/12andh<3/12andv>0.3ands>=0.25;
绿色空间,h>=3/12andh<5/12andv>0.3ands>=0.25;
青色空间,h>=5/12andh<7/12andv>0.3ands>=0.25;
蓝色空间,h>=7/12andh<9/12andv>0.3ands>=0.25;
品红空间,h>=9/12andh<11/12andv>0.3ands>=0.25;
式中h代表HSV颜色空间中的色调,s代表HSV颜色空间中的饱和度,v代表HSV颜色空间中
的明度,然后进入步骤D;
D、创建8张与原始图像大小相同的二值图,并将每张二值图上所有像素点的像素值置为0,
将原始图像从RGB空间转换到HSV颜色空间中,然后判断HSV颜色空间中原始图像的每个像
素点所属的颜色类型,将属于同一颜色类型的所有像素点映射到一张二值图的对应位置处,

\t并将二值图上对应位置处的像素点的像素值置为1,最后得到8张颜色分布二值图,然后进
入步骤E;
E、将8张颜色分布二值图分别与背景轮廓二值图做与运算后再进行形态学处理,滤除8张颜
色分布二值图中的细小沟壑和细线,得到8张细轮廓分布二值图,分别对8张细轮廓分布二
值图进行连通域扫描,利用八连通标记法得到连通图对应的标记图,并计算每个连通域的属
性,然后对8张细轮廓分布二值图中不符合汉字笔画特征的连通域进行过滤,得到8张笔画
级分布二值图,分别对每一张笔画级分布二值图中符合汉字笔画特征的连通域进行合并,将
合并后的多个连通域记为一个标记区域并确定标记值,对于任意两个标记区域,若一个标记
区域的质心坐标位于另一个标记区域的最小外接矩形内,则将该标记区域的标记值置为另一
个标记区域的标记值,最后对于每一张笔画级分布二值图,依次将标记值相同的标记区域记
为一个文本行,获得8张文本行二值图,然后进入步骤F;
F、对于8张文本行二值图中的任意一个文本行,当文本行的最小外接矩形的高度小于背景轮
廓的最小外接矩形高度的1/20、文本行的最小外接矩形的宽高比小于7/10或者文本行的面
积与其最小外接矩形的面积比小于1/10或大于4/5时,将该文本行从对应的文本行二值图上
删除,得到的8张字符图像二值图,分别计算每一张字符图像二值图中所有文本行的面积和,
当计算得到的面积和小于背景轮廓二值图的最小外接矩形面积的1/200时,将对应的字符图
像二值图删除,并分别计算剩余的字符图像二值图中所有文本行的最小外接矩形的坐标,然
后进入步骤G;
G、创建一张与原始图像大小相同的空白图像,依次将剩余的字符图像二值图中所有文本行的
最小外接矩形标记在空白图像的相应位置处,得到初级识别图像,分别将初级识别图像中由
两个以上最小外接矩形组成的边界呈不规则多边形的独立区域作为一个识别区域,对于每一
个识别区域,统计各个顶点的坐标,并从顶点坐标中选出x坐标的最小值记为xmin,选出x坐
标的最大值记为xmax,选出y坐标的最小值记为ymin,选出y坐标的最大值记为ymax,以(xmin,
ymin),(xmax,ymin),(xmin,ymax),(xmax,ymax)四个坐标作为顶点创建矩形区域,则从各个识别
区域中得到的所有矩形区域以及初级识别图像中剩余的最小外接矩形组成的区域即为原始图
像中的汉字区域。
2.如权利要求1所述的自然场景中商铺标牌汉字区域自动检测方法,其特征在于,所述的步
骤A包括以下步骤:
A1、扫描自然场景中的商铺标牌获得原始图像,在扫描线上大于1/3长度小于2/3长度的区

\t段内任取一点作为基点,以此基点为中心点构建一个R*kR的矩形采样区,其中R为矩形采样
区的宽度,R的取值大于原始图像宽度的1/7,小于原始图像宽度的1/4,k为矩形采样区的
宽高比,k的取值范围为1/4<k<4,从原始图像中裁剪矩形采样区,获得采样区图像,然后进
入步骤A2;
A2、将采样区图像的RGB三通道展开,形成M*N行3列的矩阵,其中M为采样区图像的宽度,
N为采样区图像的高度,将矩阵的每一行作为三维空间的一个点,采用欧氏距离进行Kmeans
聚类,设定聚类的类别数为2,得到两个聚类中心点,分别为向量V1和V2。
3.如权利要求1所述的自然场景中商铺标牌汉字区域自动检测方法,其特征在于,所述的步
骤B包括以下步骤:
B1、将原始图像中的各个像素点依次标记为1,2,……,n,n为原始图像中像素点的个数,
计算原始图像的像素点x与向量V1和V2的欧式距离L1(x)和L2(x),其中x=1,2,……,n,
然后进入步骤B2;
B2、创建两张与原始图像大小相同的初始化二值图bg1和bg2,并将两张初始化二值图bg1
和bg2中所有像素点的像素值置为0,设定距离阈值X,当原始图像的像素点x与向量V1的
欧式距离L1(x)<X时,将初始化二值图bg1中与像素点x位置相同的像素点的像素值置为1,
得到粗轮廓二值图BG1,当原始图像的像素点x与向量V2的欧式距离L2(x)<X时,将初始
化二值图bg2中与像素点x位置相同的像素点的像素值置为1,得到粗轮廓二值图BG2,然后
进入步骤B3;
B3、分别对粗轮廓二值图BG1和BG2做形态学处理,即首先通过腐蚀运算去除粗轮廓二值图
BG1和BG2的细线,然后通过膨胀运算和闭运算去除粗轮廓二值图BG1和BG2的细小沟壑,
最后对粗轮廓二值图BG1和BG2进行连通域分析,从粗轮廓二值图BG1和BG2中选出面积最
大的连通域作为背景轮廓,然后进入步骤B4;
B4、填充背景轮廓中的孔洞,并修复背景轮廓边缘上的凹陷,得到背景轮廓二值图。
4.如权利要求1所述的自然场景中商铺标牌汉字区域自动检测方法,其特征在于:所述的步
骤E包括以下步骤:
E1、将8张颜色分布二值图分别与背景轮廓二值图做与运算,得到8张粗轮廓分布二值图,
然后进入步骤E2;
E2、分别对8张粗轮廓分布二值图做形态学处理,即对每一张粗轮廓二值图在垂直和水平两
个方向上做7个像素的闭运算和开运算,滤除细小沟壑和细线,得到8张细轮廓分布二值图,

\t然后进入步骤E3;
E3、分别对8张细轮廓分布二值图进行8连通域扫描,并计算每一张细轮廓分布二值图中每
个连通域的面积、质心坐标和最小外接矩形,然后进入步骤E4;
E4、对于每一张细轮廓分布二值图中的任意一个连通域,当其满足下述三个过滤条件中的至
少一个时,将此连通域内所有像素点的像素值置为0,得到8张笔画级分布二值图,然后进
入步骤E5,其中三个过滤条件分别为:
a、连通域的面积与其最小外接矩形的面积比小于1/5;
b、连通域的最小外接矩形的宽度小于原始图像宽度的1/200或大于原始图像宽度的1/2;
c、连通域的最小外接矩形的宽高比小于1/10或大于10;
E5、对于得到的8张笔画级分布二值图,对每一张笔画级分布二值图均作如下处理:
E5-1、将笔画级分布二值图中的各个连通域依次标记为C1,C2,……,Ci,i为笔画级分布二
值图中连通域的个数,分别将C1,C2,……,Ci的标记值置为各自的下标值,即C1的标记值
为1,C2的标记值为2,以此类推,Ci的标记值为i,并定义独立连通域集合P,独立连通域
集合P中初始的连通域个数为0;
E5-2、从C1,C2,……,Ci中选取任意两个连通域的最小外接矩形向纵坐标轴上投影,得到两
条竖直投影线段,定义disH为两条竖直投影线段间的重叠长度,并规定当两条竖直投影线段
没有重叠时disH值为0,从C1,C2,……,Ci中选取任意两个连通域的最小外接矩形向横坐
标轴上投影,得到两条水平投影线段,定义dis为两条水平投影线段间的最短距离,当两条
水平投影线段相邻或重叠时dis值为0,当两条水平投影线段没有重叠时,dis值为左侧水平
投影线段的右端点到右侧水平投影线段的左端点之间的距离;
E5-3、定义avgW为字符平均宽度,avgW的初始值为C1的最小外接矩形的宽度,定义sum为
字符行总宽度,sum的初始值为avgW,定义cnt为计数器,cnt的初始值为1;
选取C1和C2的最小外接矩形向纵坐标轴上投影后得到的两条竖直投影线段,当两条竖直投影
线段间的重叠长度disH小于C1的最小外接矩形高度的1/4时,将C2中所有像素点的像素值
置为0,并将C2的标记值置为0,当两条竖直投影线段间的重叠长度disH大于等于C1的最小
外接矩形高度的1/4时,选取C1和C2的最小外接矩形向横坐标轴上投影后得到的两条水平投
影线段,当两条水平投影线段间的最短距离dis小于等于avgW的1.5倍时,将C2的标记值置
为C1的标记值1,同时更新sum的值为sum加C2的最小外接矩形的宽度,然后将cnt的值加
1,并更新avgW的值为sum除以cnt,当两条水平投影线段间的最短距离dis大于avgW的1.5

\t倍时,将C2放入独立连通域集合P中;
选取C1和C3的最小外接矩形向纵坐标轴上投影后得到的两条竖直投影线段,当两条竖直投影
线段间的重叠长度disH小于C1的最小外接矩形高度的1/4时,将C3中所有像素点的像素值
置为0,并将C3的标记值置为0,当两条竖直投影线段间的重叠长度disH大于等于C1的最小
外接矩形高度的1\...

【专利技术属性】
技术研发人员:张重生赵晓东
申请(专利权)人:河南大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1