图像中文本区域检测方法、装置及电子设备制造方法及图纸

技术编号：13554043 阅读：110 留言：0更新日期：2016-08-18 21:21

本申请公开了一种图像中文本区域检测方法和装置以及一种电子设备。其中所述图像中文本区域检测方法包括：从目标图像中提取候选文本行区域图像；采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断，并对判断为文本区域的分区进行标记；将各个标记为文本区域的所述分区合并，获得所述目标图像的文本区域。采用本申请提供的方法，能够实现适用于不同类型图像、不同语言文字、不同风格字体的文字区域检测，使得该技术方案具备通用性；提高对文本行区域多样性的适应能力及抗噪声干扰能力，保证检测结果的准确性；极大减少分类器判断区域，提高检测速度。

全部详细技术资料下载

【技术实现步骤摘要】
201510030520

【技术保护点】
一种图像中文本区域检测方法，其特征在于，包括：从目标图像中提取候选文本行区域图像；采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断，并对判断为文本区域的分区进行标记；将各个标记为文本区域的所述分区合并，获得所述目标图像的文本区域。

【技术特征摘要】
1.一种图像中文本区域检测方法，其特征在于，包括：从目标图像中提取候选文本行区域图像；采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断，并对判断为文本区域的分区进行标记；将各个标记为文本区域的所述分区合并，获得所述目标图像的文本区域。2.根据权利要求1所述的图像中文本区域检测方法，其特征在于，所述深度学习文本/非文本分类器所采用框架为Cuda-Convent框架。3.根据权利要求2所述的图像中文本区域检测方法，其特征在于，所述Cuda-Convent框架上配置有五层隐层。4.根据权利要求3所述的图像中文本区域检测方法，其特征在于，所述Cuda-Convent框架上的五层隐层从输入到输出依次为第一卷积层、第一Pooling层、第二卷积层、第二Pooling层和全连接层。5.根据权利要求1所述的图像中文本区域检测方法，其特征在于，所述采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断，并对判断为文本区域的分区进行标记，具体包括：利用滑动窗口遍历所述候选文本行区域图像，并截取所述滑动窗口所对应的所述候选文本行区域图像作为所述候选文本行区域图像的窗口图像；通过所述深度学习文本/非文本分类器计算遍历经过的各个所述窗口图像为文本区域的概率；若所述窗口图像为文本区域的概率超过预定的阈值，则将该窗口图像对应的区域标记为文本区域。6.根据权利要求5所述的图像中文本区域检测方法，其特征在于，所述若所述窗口图像为文本区域的概率超过预定的阈值，则将该窗口图像对应的区域标记为文本区域的步骤中，所述阈值采用如下方式获得：记录遍历经过的各个所述窗口图像为文本区域的概率；根据各个所述窗口图像为文本区域的概率，计算所述候选文本行区域图像为文本区域的平均概率，以该平均概率为所述预定的阈值，或者以该平均概率为基础，将高于或者低于该平均概率一个预定数值的概率值作为所述预定的阈值。7.根据权利要求1至6任意一项所述的图像中文本区域检测方法，其特征在于，在所述采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断的步骤之前，对所述深度学习文本/非文本分类器进行训练，包括：向所述深度学习文本/非文本分类器提供m列*n行像素的文本图像作为正样本，以及m列*n行像素的非文本图像作为负样本，其中，m，n均为固定的整数值。8.根据权利要求7所述的图像中文本区域检测方法，其特征在于，所述正样本为24列*24行像素的文本图像，所述负样本为24列*24行像素的非文本图像。9.根据权利要求1所述的图像中文本区域检测方法，其特征在于，所述从目标图像中提取候选文本行区域图像，具体包括：对所述目标图像进行二值化处理，获得所述目标图像的二值图像；对所述二值图像进行版面分析，获得所述目标图像的候选文本行区域图像。10.根据权利要求9所述的图像中文本区域检测方法，其特征在于，所述对目标图像进行二值化处理，获得所述目标图像的二值图像，具体包括：接收所述目标图像；采用Canny算法计算所述目标图像的边缘图像；采用颜色空间转换算法计算所述目标图像的灰度图像；根据所述边缘图像中的边缘像素及其8邻域像素在所述灰度图像中的灰度值，将所述边缘图像中的边缘像素及其8邻域像素标记为前景图像像素或背景图像像素；将所述边缘图像中除所述边缘像素及其8邻域像素以外的其它像素，标记为未知像素；根据所述未知像素区域边缘中所述前景图像像素和所述背景图像像素的分布，将所述未知像素区域中的所有像素标记为所述前景图像像素或所述背景图像像素；以所述边缘图像中标记为所述前景图像像素的像素点为前景像素，对所述边缘图像进行二值化，获得所述目标图像的第一二值图像，以所述边缘图像中标记为所述背景图像像素的像素点为前景像素，对所述边缘图像进行二值化，获得所述目标图像的第二二值图像。11.根据权利要求10所述的图像中文本区域检测方法，其特征在于，所述根据所述边缘图像中的边缘像素及其8邻域像素在所述灰度图像中的灰度值，将所述边缘图像中的边缘像素及其8邻域像素标记为前景图像像素或背景图像像素，具体包括：获取所述边缘图像中被选定边缘像素及其8邻域像素在所述灰度图像中的灰度值；计算所述被选定边缘像素及其8邻域像素的灰度值的灰度均值；依次将所述被选定边缘像素及其8邻域像素的灰度值与所述灰度均值进行比较，若被比较像素的灰度值小于所述灰度均值，则将该被比较像素标记为所述前景图像像素，反之，标记为所述背景图像像素。12.根据权利要求10所述的图像中文本区域检测方法，其特征在于，所述根据所述未知像素区域边缘中所述前景图像像素和所述背景图像像素的分布，将所述未知像素区域中的所有像素标记为所述前景图像像素或所述背景图像像素，具体包括：统计所述未知像素区域边缘中所述前景图像像素的数目和所述背景图像像素的数目；将所述未知像素区域边缘中所述前景图像像素的数目和所述背景图像像素的数目进行比较；若所述前景图像像素的数目大于所述背景图像像素的数目，则将所有所述未知像素标记为所述前景图像像素，反之，则标记为所述背景图像像素。13.根据权利要求10所述的图像中文本区域检测方法，其特征在于，所述对所述二值图像进行版面分析，获得所述目标图像的候选文本行区域图像，具体为：分别对所述第一二值图像和所述第二二值图像进行版面分析，获得所述目标图像的第一候选文本行区域图像和第二候选文本行区域图像。14.根据权利要求13所述的图像中文本区域检测方法，其特征在于，所述采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断，具体为：采用深度学习文本/非文本分类器分别对所述第一候选文本行区域图像和所述第二候选文本行区域图像分区域进行是否为文本区域的判断。15.根据权利要求14所述的图像中文本区域检测方法，其特征在于，所述
\t将各个标记为文本区域的所述分区合并，获得所述目标图像的文本区域，具体包括：合并所述第一候选文本行区域图像中标记为文本区域的所述分区为第一文本区域，合并所述第二候选文本行区域图像中标记为文本区域的所述分区为第二文本区域；合并所述第一文本区域和所述第二文本区域，并去除所述第一文本区域与所述第二文本区域相重叠的区域，获得所述目标图像的文本区域。16.根据权利要求9所述的图像中文本区域检测方法，其特征在于，所述对所述二值图像进行版面分析，获得所述目标图像的候选文本行区域图像，具体包括：接收所述二值图像；对所述二值图像进行连通域分析，获得所述二值图像的连通域；合并所述二值图像中相重叠的所述连通域，获得所述目标图像的候选文本区域图像；根据所述候选文本区域图像之间的位置关系和特征关系，合并所述二值图像中的所述候选文本区域图像，获得所述目标图像的候选文本行区域图像。17.根据权利要求16所述的图像中文本区域检测方法，其特征在于，所述候选文本区域图像的特征包括所述候选文本区域图像的长宽比和所述候选文本区域图像的颜色。18.根据权利要求16所述的图像中文本区域检测方法，其特征在于，所述获得所述目标图像的候选文本行区域图像后，输出该候选文本行区域图像在所述目标图像中的坐标，具体方式为：计算获得所述候选文本行区域图像的外接矩形；获得所述外接矩形在所述目标图像中的位置坐标，将其作为所述候选文本行区域图像在所述目标图像中的坐标。19.根据权利要求18所述的图像中文本区域检测方法，其特征在于，所述外接矩形在所述目标图像中的位置坐标以下述任意一种方式表示：所述外接矩形的四个顶点的坐标位置；所述外接矩形的一个顶点的坐标位置以及该外接矩形的长度尺寸。20.根据权利要求1所述的图像中文本区域检测方法，其特征在于，所述获得所述目标图像的文本区域，具体为：通过计算获得所述文本区域在所述目标图像中的坐标。21.一种图像中文本区域检测装置，其特征在于，包括：候选文本行区域图像提取单元，用于从目标图像中提取候选文本行区域图像；候选文本行区域图像判断单元，用于读取所述候选文本行区域图像提取单元提供的所述候选文本行区域图像，采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断，并对判断为文本区域的分区进行标记；文本区域获得单元，用于读取所述候选文本行区域图像判断单元提供的标记为文本区域的所述分区，将各个标记为文本区域的所述分区合并，获得所述目标图像的文本区域。22.根据权利要求21所述的图像中文本区域检测装置，其特征在于，所述深度学习文本/非文本分类器所采用框架为Cuda-Convent框架。23.根据权利要求22所述的图像中文本区域检测装置，其特征在于，所述Cuda-Convent框架上配置有五层隐层。24.根据权利要求23所述的图像中文本区域检测装置，其特征在于，所述Cuda-Convent框架上的五层隐层从输入到输出依次为第一卷积层、第一Pooling层、第二卷积层、第二Pooling层和全连接层。25.根据权利要求21所述的图像中文本区域检测装置，其特征在于，所述采用经过训练的深度学习文本/非文本分类器对所述候选文本行区域图像分区域进行是否为文本区域的判断，并对判断为文本区域的分区进行标记，具体包括：利用滑动窗口遍历所述候选文本行区域图像，并截取所述滑动窗口所对应的所述候选文本行区域图像作...

【专利技术属性】
技术研发人员：陈益如，何源，何梦超，童志军，张洪明，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人