基于矩形框坐标变换的多方向文本行检测方法技术

技术编号:19547007 阅读:36 留言:0更新日期:2018-11-24 21:09
本发明专利技术提供了一种基于矩形框坐标变换的多方向文本行检测方法,包括:输入待检测的图像,对其拆分为Y、R、G、B通道,并得到对应的反向通道;对候选字符区域采用基于距离和相似度的连接算法进行有效字符对连接;对每一通道图像融合基于特征过滤的ER算法和基于宽高比约束的MSER算法进行候选字符的提取;对未连接的候选字符进行坐标变换,再进行字符对连接;采用基于文本行线性约束的方法进行文本行的连接;统计文本行中经过坐标变换的字符的数量,超过行内字符数的一半,则将文本行矩形框进行逆向坐标变换;采用基于模板匹配和文本行内字符统计特征的方法进行文本行的过滤,得到最终的文本行检测结果。

Multi-direction text line detection method based on rectangular frame coordinate transformation

The invention provides a multi-direction text line detection method based on rectangular frame coordinate transformation, which includes: input the image to be detected, split it into Y, R, G and B channels, and get the corresponding reverse channel; use the distance and similarity based connection algorithm to connect the candidate character regions effectively; and connect each character pair. Channel image fusion: ER algorithm based on feature filtering and MSER algorithm based on width-height ratio constraint to extract candidate characters; coordinate transformation of unconnected candidate characters and character-to-character connection; text line connection based on linear constraint of text line; statistics of coordinate transformation in text line If the number of characters exceeds half of the number of in-line characters, the text line rectangular box is transformed into inverse coordinates, and the text line is filtered based on template matching and statistical features of in-line characters to get the final text line detection results.

【技术实现步骤摘要】
基于矩形框坐标变换的多方向文本行检测方法
本专利技术设计一种计算机视觉领域中场景文字检测技术,特别是一种基于矩形框坐标变换的多方向文本行检测方法。
技术介绍
随着智能手机和移动网络的普及,图片的获取和传输变得更加容易,图片作为信息的载体,越来越普遍地出现在我们的生活中。图片包含的信息丰富,图片中的文字有利于图片内容的理解,同时文字本身可能也是用户关注的焦点。自然场景图片中的文字检测逐渐成为计算机视觉领域的热门研究方向,有着广阔的应用场景:可用于多媒体内容理解和检索领域;可作为新型的输入与存档方式;可提供更加智能的应用,如拍照翻译;同时对工业自动化及自动驾驶技术有补充作用。场景图片中文字的检测精度和召回率逐年提高,检测时间缩短,但仍然无法满足实际应用的需求,主要挑战在于自然场景图片中文字出现的背景具有复杂性;文字布局和呈现形式的多样;拍照环境和拍照技术的不确定性带来的图片质量问题。并且现有的场景文字检测方法大多集中于水平文本行的检测,本专利技术提出一种基于矩形框旋转的多方向文本行检测方法,该方法对水平、竖直、倾斜文本行均具有较好的检测效果。
技术实现思路
本专利技术的目的在于提供一种基于矩本文档来自技高网...

【技术保护点】
1.一种基于矩形框坐标变换的多方向文本行检测方法,其特征在于,包括以下步骤:步骤1,输入待检测的图像,对其拆分为Y、R、G、B通道,并得到对应的反向通道;步骤2,对候选字符区域采用基于距离和相似度的连接算法进行有效字符对连接;步骤3,对每一通道图像融合基于特征过滤的ER算法和基于宽高比约束的MSER算法进行候选字符的提取;步骤4,对未连接的候选字符进行坐标变换,再进行字符对连接;步骤5,采用基于文本行线性约束的方法进行文本行的连接;步骤6,统计文本行中经过坐标变换的字符的数量,超过行内字符数的一半,则将文本行矩形框进行逆向坐标变换;步骤7,采用基于模板匹配和文本行内字符统计特征的方法进行文本行...

【技术特征摘要】
1.一种基于矩形框坐标变换的多方向文本行检测方法,其特征在于,包括以下步骤:步骤1,输入待检测的图像,对其拆分为Y、R、G、B通道,并得到对应的反向通道;步骤2,对候选字符区域采用基于距离和相似度的连接算法进行有效字符对连接;步骤3,对每一通道图像融合基于特征过滤的ER算法和基于宽高比约束的MSER算法进行候选字符的提取;步骤4,对未连接的候选字符进行坐标变换,再进行字符对连接;步骤5,采用基于文本行线性约束的方法进行文本行的连接;步骤6,统计文本行中经过坐标变换的字符的数量,超过行内字符数的一半,则将文本行矩形框进行逆向坐标变换;步骤7,采用基于模板匹配和文本行内字符统计特征的方法进行文本行的过滤,得到最终的文本行检测结果。2.根据权利要求1所述的方法,其特征在于,步骤2具体包括如下步骤:步骤2.1,计算候选字符对之间的以下特征:(1)候选字符对之间的相对距离d'ij;(2)候选字符对高度方向上的重叠f1;(3)候选字符矩形框的高度比值f2;(4)笔划宽度的均值的比值f3;(5)RGB和Lab通道像素均值差异f4和f5;步骤2.2,根据启发式规则对满足下述条件之一的不可能连接成有效字符对的情况进行粗滤除:(1)某一候选字符区域包含另一候选字符区域;(2)候选字符的左上顶点水平方向起点相同;(3)高度方向重叠过小;(4)相对距离过大;步骤2.3,采用相对距离以外的特征作为字符的相似度衡量,训练字符对连接的AdaBoost分类器;其中,训练集的正例为启发式规则过滤后同一文本行中的字符对,反例为启发式规则过滤后字符与噪声区域组成的连接对;步骤2.4,采用训练好的分类器得到字符对连接的置信度值,并根据距离的远近设定双阈值,其中距离较近的字符对的第一相似度阈值可设得较小,距离较远的字符对的第二相似度阈值较高;若距离和相似度满足下式字符对为有效字符对,否则为无效字符对3.根据权利要求2所述的方法,其特征在于,步骤2.1中的特征具体如下:(1)字符对之间的相对距离d'ij,i,j分别代表两个候选字符区域,wi、wj分别代表字符矩形框的宽度d'ij=|dij|/max(wi,wj)(2)高度方向上的重叠f1,rect为候选字符的矩形框,rect.y为左上角y坐标,br()为矩形框的右下角,hi、hj分别为字符矩形框的高度,若高度方向无重叠,则该值为则为负数,最大值为1(3)候选字符矩形框的高度比值f2(4)笔划宽度的均值的比值f3,si、sj分别代表候选字符的笔划宽度均值(5)通道像素均值差异,RBG通道的差异f4和Lab通道的差异f...

【专利技术属性】
技术研发人员:项欣光张丽飞
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1