当前位置: 首页 > 专利查询>清华大学专利>正文

文字检测方法及系统技术方案

技术编号:16080979 阅读:69 留言:0更新日期:2017-08-25 16:01
本发明专利技术公开了一种文字检测方法及系统;方法包括:将目标图像的三色通道中的每个图像进行减色处理,得到减色图像,以及,将目标图像转换为二值图像;将减色图像中具有相同色彩的连通块进行合并,以及将二值图像中具有相同色彩的连通块合并;对减色图像三色通道的每种色彩通道的连通块、以及二值图像中的连通块,分别在竖直和水平方向上以连接的方式进行合并,得到目标图像中候选的文字区域;在目标图像上对应候选的文字区域的位置提取特定区域,基于所提取的特定区域中包含文字区域的概率与预设概率阈值的比较结果判断提取的特定区域中是否包含文字行或文字列。实施本发明专利技术,能够对图像中的文本进行准确检测。

【技术实现步骤摘要】
文字检测方法及系统
本专利技术涉及图像中的文字检测技术,尤其涉及一种文字检测方法及系统。
技术介绍
文档图像即图像格式的文档,它是通过某种方式(如扫描)将纸质文档等转化为图像格式的文档,以供用户电子阅读,文档图像的典型示例是便携式文档格式(PDF,PortableDocumentFormat)格式图像、以及DjVu格式图像。目前的文字检测技术可以对文档图像中的文字进行检测(定位图像中承载文字的区域),并基于检测到的承载文字的区域进行文字识别。一般意义上的图像不仅包括文档图像,还包括非文档图像(也就是通过扫描格式图像如网络相册中的用户上传图像,这些图像可能是联合照片专家组(JPG)图像、位图(BMP)图像、标签图像文件格式(TIFF)图像、图形交换格式(GIF)图像以及可交换的图像文件格式(EXIF)图像等。如果能识别非文档格式图像中的文字,则可以获得准确的语义信息,帮助用户检索、管理图像。要想识别非扫描格式图像中的文字,检测图像中的文字是必要的前置步骤,目前的文字检测技术多使用人工指定的特征来判别图像是否中是否包含有文字,且多针对英文字符进行检测,由于中文与英文在字形结构上存在显著的本文档来自技高网...
文字检测方法及系统

【技术保护点】
一种文字检测方法,其特征在于,所述方法包括:将目标图像的三色通道中的每个图像进行减色处理,得到减色图像,以及,将所述目标图像转换为二值图像;将所述减色图像中具有相同色彩的连通块进行合并,以及将所述二值图像中具有相同色彩的连通块合并;对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块,分别在竖直和水平方向上以连接的方式进行合并,得到所述目标图像中候选的文字区域;在所述目标图像上对应所述候选的文字区域的位置提取特定区域,基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列。

【技术特征摘要】
1.一种文字检测方法,其特征在于,所述方法包括:将目标图像的三色通道中的每个图像进行减色处理,得到减色图像,以及,将所述目标图像转换为二值图像;将所述减色图像中具有相同色彩的连通块进行合并,以及将所述二值图像中具有相同色彩的连通块合并;对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块,分别在竖直和水平方向上以连接的方式进行合并,得到所述目标图像中候选的文字区域;在所述目标图像上对应所述候选的文字区域的位置提取特定区域,基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列。2.如权利要求1所述的方法,其特征在于,所述将目标图像的三色通道中的每个图像进行减色处理,得到减色图像,包括:将所述目标图像的红绿蓝三色通道中每个通道分别做K个等级的量化得到K个等级的区间;将所述目标图像中每个像素在RGB三色通道的亮度映射到对应通道量化的区间中,K为整数且255>K>1。3.如权利要求1所述的方法,其特征在于,所述将减色图像中具有相同色彩的连通块进行合并,以及将所述二值图像中具有相同色彩的连通块合并,包括:对所述减色图像中以及所述二值图像中的每个像素作为一个单独的连通块,建立针对所述像素的并查集执行以下处理:若所述像素与8邻接的像素中的任一像素的色彩相同,则将相邻的两个色彩相同的像素所属的连通块合并为同一个连通块;对每个所述连通块的像素面积进行判断,如果所述连通块的像素面积小于像素面积阈值,则将所述连通块并入与所述连通块相邻的连通块,并将所述连通块的色彩设置为所并入的连通块的色彩。4.如权利要求1所述的方法,其特征在于,所述将所述减色图像中具有相同色彩的连通块进行合并,以及将所述二值图像中具有相同色彩的连通块合并之后,所述方法还包括:丢弃所述减色图像中以及所述二值图像中符合预设特征的连通块;所述预设特征包括以下至少之一:所述连通块中面积小于像素面积阈值的连通块;所述连通块中任意一边长度大于相应图像边长的第一预设比例的连通块;所述连通块中任意一边长大于边框长度阈值,且像素面积与包围盒积的比值小于比值阈值的连通块。5.如权利要求1所述的方法,其特征在于,所述将所述减色图像中具有相同色彩的连通块进行合并,以及将所述二值图像中具有相同色彩的连通块合并之后,所述方法还包括:基于所述减色图像中的每种色彩通道的连通块的位置关系分别进行合并为新的连通块,以及针对所述二值图像中的连通块基于位置关系进行合并为新的连通块;其中,所述合并包括执行以下处理至少之一:合并距离小于距离阈值的连通块;取任意两个所述连通块的各自的长宽的平均值的中的最大值,若所述最大值满足预设条件,合并所选取的所述两个连通块;合并包围盒存在交叉且交叉部分符合预设交叉特征的连通块;合并包围盒对齐且满足预设对齐合并规则的连通块。6.如权利要求1所述的方法,其特征在于,所述对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块,分别在竖直和水平方向上以连接的方式进行合并,得到所述目标图像中候选的文字区域,包括:基于连接合并规则不同类型的依次进行水平方向的合并、竖直方向的合并、以及水平方向的合并;其中,所述连接合并规则包括:满足以下条件至少之一连接选取的两个连通块为新的连通块:两个所述连通块的包围盒在参考轴向上的中心距离或者边缘距离中的最小距离,小于两个所述连通块的包围盒对应所述参考轴向的边长中最小边长的第一预设比例;两个所述连通块的包围盒在在垂直于所述参考轴向的方向上的距离小于两个所述连通块的包围盒在垂直于所述参考轴向的边长中最小边长的第二预设比例;两个所述连通块的包围盒在所述参考轴向的边长的差值小于两个所述连通块的包围盒对应所述参考轴向的边长中最小边长的第三预设比例。7.如权利要求1至6任一项所述的方法,其特征在于,所述在所述目标图像上对应所述候选的文字区域的位置提取特定区域,基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列,包括:以所述目标图像上提取出一个所述特定区域,将在所述减色图像和所述二值图像得到连接的包围盒,以特定滑窗步长滑窗将在所述减色图像和所述二值图中连接得到的包围盒送入卷积神经网络分类器中判别,得到每个所述滑窗内包含文字的概率;对所述滑窗内包含文字的概率取平均值,得到所述候选的文字区域包括文字...

【专利技术属性】
技术研发人员:徐昆郭晓威黄飞跃郑宇飞张惜今卢艺帆
申请(专利权)人:清华大学腾讯科技深圳有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1