当前位置: 首页 > 专利查询>浙江大学专利>正文

基于组件树和霍夫森林的文字检测和识别方法技术

技术编号:11729909 阅读:100 留言:0更新日期:2015-07-15 02:32
本发明专利技术公开了一种基于组件树和霍夫森林的文字检测和识别方法,首先,利用组件树提取出具有层级的连通域,同时针对文字本身的特征建立分类器,对分类器输出的正样本进行尺度统一,然后输入至霍夫森林,并以每种字符作为单独的类别,在检测过程中完成识别。对输入图像进行颜色空间转换,并对每一个颜色空间的图像及其补值进行独立处理;通过建立组件树获取具有层级的连通域;每一个连通域分别求取一组特征,并输入至分类器识别;分类器输出的正样本作为候选的文字区域,并放缩至同一尺度大小;每一个候选区域输入至霍夫森林,霍夫森林输出文字的分布概率;根据霍夫森林输出的后验概率,估计文字的位置并输出结果。

【技术实现步骤摘要】

本专利技术涉及一种计算机视觉
的文字检测和识别算法,具体为一种基于组件树和霍夫森林的文字检测和识别方法
技术介绍
随着互联网的蓬勃发展,人们获取信息的方式发生了巨大的改变。传统媒体,如报纸、广播等,影响力逐渐让位于互联网的新兴媒体,如社交网络、轻博客等。互联网中的新兴媒体除了更新速度快、传播覆盖面广之外,同时也成为每一个用户自由发布信息的平台。每个人都可通过各类的平台,如微博等,发布消息,通过不断的转发,该消息就可能成为新的热点。图像、视频由于易于理解,符合现代人快速的生活节奏,逐渐取代文本成为主要的信息传播载体。由于微博类网站对文本长度的限制,要发表较丰富的内容通常需要图文结合的方式,同时,图片分享类网站的蓬勃发展,给图像理解领域带来新的机遇和挑战。伴随着智能手机的普及,越来越多的图像是由手机拍摄得到,而这部分图像对了解用户行为、获取用户相关信息有极大价值。这些图像拍摄的场景各式各样,可能是日常的路边,也有可能是旅途中。由于文字表达的信息相对准确,通过检测和识别场景中的文字,对图像和视频信息的提取具有重要意义。对于视频监控和基于位置的服务(LBS)等应用,通过识别图像中的文字,如招牌、标识等内容,对定位图像拍摄地点有重要的参考作用;通过检测和识别场景中的文字,还可实现实时的翻译服务。自然场景的文字检测和识别作为图像理解的重要一环,一直受到研究者的关注。一般来说,对于扫描文本,可以直接通过光学字符识别(OCR)软件进行识别,对于稍复杂的样本,可能包含有各类不同字体和大小的文字,以及各类格式的混排,如竖排文字,对于该类样本需要先进行适度的分割,再输入到光学字符识别软件中。但光学字符识别系统只能处理背景简单且文本相对密集的图像,对于包含复杂背景的自然图像,必须先通过文字定位取出包含文本的图像块,才能实现准确的识别。对于文字背景较为复杂的图像,还必须经过文字背景分离才能得到理想的识别结果。在目前大部分的解决方案中,文字检测和识别作为孤立的两部分的工作分别进行处理。霍夫变换是用于检测具有解析表达式的几何形状的常用目标检测方法,如直线、圆检测等。霍夫变换的核心思想是把原图像中的像素点或特征变换到霍夫空间进行投票,而投票的峰值即为检测的目标。广义霍夫变换在霍夫变换的基础上进行扩展,可对一般形状的目标进行检测。广义霍夫变换的基本思想是通过图像中每一个分块的边缘切向量估算目标的中心点位置,本质上利用边缘切向量,为不存在解析表达的形状建立参数空间,从而应用霍夫变换。广义霍夫变换假设的前提是,图像中每个像素都是独立的,在投票过程中对每一个分块赋予相同的权重,使得该方法在复杂场景下容易失效。Gall等人基于霍夫变换的思想,在2009年提出通过霍夫森林实现鲁棒的行人等目标的检测方案。霍夫森林对图像中每一个分块通过一组决策树进行分类(前景和背景),并估算目标的中心位置,使用决策树输出的概率作为投票权重。
技术实现思路
本专利技术为了解决现有技术中的问题,提出一种基于组件树和霍夫森林的文字检测和识别方法。通过组件树级联分类器的方式提取文字候选区域以确定目标尺度,解决了霍夫森林在检测中尺度不准确以及定位漂移的问题。本专利技术采用以下技术方案:一种基于组件树和霍夫森林的文字检测和识别方法,包括以下步骤:步骤1:输入待检测图像,把待检测图像转换至多个颜色空间,同时求出各个颜色空间的补值;所述的补值即该颜色空间内所有像素值进行二进制取反后组成的新图像;步骤2:通过构建组件树的方式,分别提取出各个颜色空间和各个补值中具有层级的连通域,并对每一个具有层级的连通域分别执行步骤3;步骤3:对步骤2提取出的每个连通域分别进行区域特征提取,并把特征向量输入至分类器,分类器的输出结果为文字或非文字,筛选出分类结果为文字的连通域缩放至同样的大小,并执行步骤4;步骤4:每个连通域独立输入至霍夫森林,霍夫森林由一组决策树组成,霍夫森林输出文字的分布概率,然后根据输出的分布概率识别文字,并估计文字的位置。进一步地,步骤2所述的具有层级的连通域,具有如下层级关系: ∀ m ∈ S ′ : ∃ n ∈ S m ⊆ n ]]>其中,S是像素值小于等于阈值τ的连通域集合;S'是像素值小于等于阈值υ的连通域集合,且υ<τ;m为连通域集合S'中的任一元素,n为连通域集合S的任一元素。进一步地,步骤3所述的分类器,和步骤4所述的霍夫森林,均可以通过训练获得,使用的训练样本是通过图像合成的方式获得。图像合成的具体过程如下:从本地样本库中随机选取单个文字字符,根据字符的使用频率生成单个字符或字符组合,同时进行随机的形变,包括旋转、移动、透射变换等,并与随机选择的背景进行融合。进一步地,步骤4所述的,霍夫森林输出文字的分布概率包括如下步骤:步骤4.1:霍夫森林的训练:霍夫森林中的每棵决策树的训练互相独立。包含已知文字的合成图像作为输入图像,逐张输入至决策树中进行训练。其具体过程如下:步骤4.1.1:随机采样:从输入图像中随机采样p×q大小的样本x,并记录样本x与图像中心点的距离d,同时对x提取多维的特征向量g。每一幅输入图像进行多次采样,采样得到的样本集X输入至决策树的根结点;将根节点按照步骤4.1.2进行分类决策;步骤4.1.2:若结点的深度大于深度阈值或样本集的元素数量小于数量阈值,则该结点为叶子结点,该叶子结点保存输入的样本集X,该结点训练完成;所述深度阈值为5~100,数量阈值为1~0.05N,N为决策树训练集元素数量;否则根据fθ(x)的判决结果把样本集X分为两个集合,即Xa={x∈X|fθ(x)=0本文档来自技高网
...

【技术保护点】
一种基于组件树和霍夫森林的文字检测和识别方法,其特征在于,包括以下步骤:步骤1:输入待检测图像,把待检测图像转换至多个颜色空间,同时求出各个颜色空间的补值;所述的补值即该颜色空间内所有像素值进行二进制取反后组成的新图像;步骤2:通过构建组件树的方式,分别提取出各个颜色空间和各个补值中具有层级的连通域,并对每一个具有层级的连通域分别执行步骤3;步骤3:对步骤2提取出的每个连通域分别进行区域特征提取,并把特征向量输入至分类器,分类器的输出结果为文字或非文字,筛选出分类结果为文字的连通域缩放至同样的大小,并执行步骤4;步骤4:每个连通域独立输入至霍夫森林,霍夫森林由一组决策树组成,霍夫森林输出文字的分布概率,然后根据输出的分布概率识别文字,并估计文字的位置。

【技术特征摘要】
1.一种基于组件树和霍夫森林的文字检测和识别方法,其特征在于,
包括以下步骤:
步骤1:输入待检测图像,把待检测图像转换至多个颜色空间,同时
求出各个颜色空间的补值;所述的补值即该颜色空间内所有像素值进行二
进制取反后组成的新图像;
步骤2:通过构建组件树的方式,分别提取出各个颜色空间和各个补
值中具有层级的连通域,并对每一个具有层级的连通域分别执行步骤3;
步骤3:对步骤2提取出的每个连通域分别进行区域特征提取,并把
特征向量输入至分类器,分类器的输出结果为文字或非文字,筛选出分类
结果为文字的连通域缩放至同样的大小,并执行步骤4;
步骤4:每个连通域独立输入至霍夫森林,霍夫森林由一组决策树组
成,霍夫森林输出文字的分布概率,然后根据输出的分布概率识别文字,
并估计文字的位置。
2.根据权利要求1所述的方法,其特征在于:步骤2所述的具有层
级的连通域,具有如下层级关系:
∀ m ∈ S ′ : ∃ n ∈ Sm ⊆ n ]]>其中,S是像素值小于等于阈值τ的连通域集合;S'是像素值小于等于阈
值υ的连通域集合,且υ<τ;m为连通域集合S'中的任一元素,n为连通域
集合S...

【专利技术属性】
技术研发人员:于慧敏李天豪
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1