当前位置: 首页 > 专利查询>五邑大学专利>正文

自适应文字检测方法、装置、设备及介质制造方法及图纸

技术编号:37203895 阅读:12 留言:0更新日期:2023-04-20 22:58
本申请实施例提供了自适应文字检测方法、装置、设备及介质,方法包括将文字图像输入至文字检测网络;通过文字检测网络由文字图像提取出文字区域的特征信息并得到特征图像;由特征图像检测到文字区域的边界,通过多个角点对边界定位以生成文字区域的区域候选框;由特征图像得到自适应阈值图,对自适应阈值图分割,将属于同一文字区域的不同文字分割到同一分割区域,得到分割图;联合区域候选图和分割图得到文字检测结果;能够对任意形状和密集区域的图像文字进行识别检测,提高文字检测的鲁棒性。性。性。

【技术实现步骤摘要】
自适应文字检测方法、装置、设备及介质


[0001]本申请实施例涉及但不限于图像处理
,尤其涉及自适应文字检测方法、装置、设备及介质。

技术介绍

[0002]文字检测任务是确定图像的文字位置并识别出图像的文字表达。在自然场景图像下,文字具有多样性,文字检测任务的结果受文字的大小、字体、方向、尺度、形状影响,同时受复杂的背景和干扰,如亮度不均匀、模糊、低分辨率等因素影响;这些因素均会导致文字检测任务的结果不够准确。
[0003]对于目前的文字检测任务,通过给定一个旋转矩形边框,其包含有4个固定角点(左上角、右上角、右下角、左下角),用顺时针方向上的二维坐标来表示,这并不适合任意形状文字的检测;另外,当文字区域非常接近时,对密集的文字区域的分割容易失败,只能预测其之一,导致漏检的情况。面对较为密集的文字区域和文字弯曲尺度变化大的场景图像,目前的文字检测方法的鲁棒性难以得到保证。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本申请实施例旨在至少解决现有技术中存在的技术问题之一,本申请实施例提供了自适应文字检测方法、装置、设备及介质,能够对任意形状和密集区域的图像文字进行识别检测,提高文字检测的鲁棒性。
[0006]本申请的第一方面的实施例,一种自适应文字检测方法,包括:
[0007]获取待检测的文字图像,将所述文字图像输入至文字检测网络;
[0008]由所述文字图像提取出文字区域的特征信息,根据所述特征信息得到特征图像;
[0009]对所述特征图像进行边界检测处理以得到所述文字区域的边界,通过多个角点对所述文字区域的边界进行定位,生成所述文字区域的区域候选框,得到区域候选图,所述角点的数量与所述文字区域的比例对应;
[0010]对所述特征图像进行自适应阈值化处理以得到自适应阈值图,对所述自适应阈值图进行图像分割处理,将属于同一文字区域的不同文字分割到同一分割区域,得到分割图;
[0011]联合所述区域候选图和所述分割图进行文字检测,得到文字检测结果。
[0012]本申请的第一方面的某些实施例,所述由所述文字图像提取出文字区域的特征信息,根据所述特征信息得到特征图像,包括:
[0013]由所述文字检测网络的主干网络的多个残差块根据所述文字图像生成多个包含文字区域的特征信息的基础特征映射;
[0014]由所述文字检测网络的特征金字塔网络根据多个所述基础特征映射生成多个不同尺度的融合特征图;
[0015]对多个所述融合特征图进行连接操作和上采样操作得到特征图像。
[0016]本申请的第一方面的某些实施例,所述融合特征图包括第一特征图、第二特征图、第三特征图、第四特征图和第五特征图;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图的大小依次减小;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图的通道数相同。
[0017]本申请的第一方面的某些实施例,所述对多个所述融合特征图进行连接操作和上采样操作得到特征图像,包括:
[0018]将所述第一特征图、对所述第二特征图进行上采样操作的结果、对所述第三特征图进行上采样操作的结果、对所述第四特征图进行上采样操作的结果、对所述第五特征图进行上采样操作的结果进行连接操作,得到特征图像。
[0019]本申请的第一方面的某些实施例,所述对所述特征图像进行边界检测处理以得到所述文字区域的边界,通过多个角点对所述文字区域的边界进行定位以生成所述文字区域的区域候选框,包括:
[0020]对所述特征图像进行边界检测处理,通过初始的角点表示特征图像中的文字区域的边界;
[0021]计算不同角点的偏移量,根据所述偏移量进行弯曲度预测,得到所述文字区域的弯曲度;
[0022]根据所述弯曲度增加或减少角点以定位表示特征图像中的文字区域的边界,进而通过多个角点对所述文字区域的边界进行定位以生成所述文字区域的区域候选框。
[0023]本申请的第一方面的某些实施例,所述对所述特征图像进行自适应阈值化处理以得到自适应阈值图,对所述自适应阈值图进行图像分割处理,将属于同一文字区域的不同文字分割到同一分割区域,得到分割图,包括:
[0024]对所述特征图像计算像素值,根据所述像素值进行自适应阈值化处理,得到自适应阈值图;
[0025]根据所述像素值计算文字之间的特征距离,根据所述特征距离将属于同一文字区域的不同文字分割到同一分割区域,以对所述自适应阈值图进行图像分割处理,得到分割图。
[0026]本申请的第一方面的某些实施例,所述自适应阈值图的文字区域的不同位置的阈值是不同的,并且所述文字区域的边界的阈值小于所述文字区域的中心的阈值。
[0027]本申请的第二方面的实施例,一种自适应文字检测装置,包括:
[0028]输入模块,用于获取待检测的文字图像,将所述文字图像输入至文字检测网络;
[0029]特征提取模块,用于由所述文字图像提取出文字区域的特征信息,根据所述特征信息得到特征图像;
[0030]自适应角点检测模块,用于对所述特征图像进行边界检测处理以得到所述文字区域的边界,通过多个角点对所述文字区域的边界进行定位以生成所述文字区域的区域候选框,所述角点的数量与所述文字区域的比例对应;
[0031]自适应阈值分割模块,用于对所述特征图像进行自适应阈值化处理以得到自适应阈值图,对所述自适应阈值图进行图像分割处理,将属于同一文字区域的不同文字分割到同一分割区域,得到分割图;
[0032]输出模块,用于联合所述区域候选图和所述分割图进行文字检测,得到文字检测结果。
[0033]本申请的第三方面的实施例,一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的自适应文字检测方法。
[0034]本申请的第四方面的实施例,一种计算机可读存储介质,所述一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器运行,以实现如上所述的自适应文字检测方法。
[0035]上述方案至少具有以下的有益效果:结合基于回归和分割方法两种思想,提出了自适应角点检测方法和自适应阈值分割方法,将不同尺度的文字生成不同数量的角点进行定位,利用自适应阈值的方法生成文字分割图,结合生成的角点候选框进行联合优化,得到可视化的文字检测结果;能够对任意形状和密集区域的图像文字进行识别检测,提高文字检测的鲁棒性。
附图说明
[0036]附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
[0037]图1是本申请的实施例所提供的自适应文字检测方法的步骤图;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应文字检测方法,其特征在于,包括:获取待检测的文字图像,将所述文字图像输入至文字检测网络;通过所述文字检测网络由所述文字图像提取出文字区域的特征信息,根据所述特征信息得到特征图像;对所述特征图像进行边界检测处理以得到所述文字区域的边界,通过多个角点对所述文字区域的边界进行定位,生成所述文字区域的区域候选框,得到区域候选图,所述角点的数量与所述文字区域的形状对应;对所述特征图像进行自适应阈值化处理以得到自适应阈值图,对所述自适应阈值图进行图像分割处理,将属于同一文字区域的不同文字分割到同一分割区域,得到分割图;联合所述区域候选图和所述分割图进行文字检测,得到文字检测结果。2.根据权利要求1所述的一种自适应文字检测方法,其特征在于,所述由所述文字图像提取出文字区域的特征信息,根据所述特征信息得到特征图像,包括:由所述文字检测网络的主干网络的多个残差块根据所述文字图像生成多个包含文字区域的特征信息的基础特征映射;由所述文字检测网络的特征金字塔网络根据多个所述基础特征映射生成多个不同尺度的融合特征图;对多个所述融合特征图进行连接操作和上采样操作得到特征图像。3.根据权利要求2所述的一种自适应文字检测方法,其特征在于,所述融合特征图包括第一特征图、第二特征图、第三特征图、第四特征图和第五特征图;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图的大小依次减小;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图的通道数相同。4.根据权利要求3所述的一种自适应文字检测方法,其特征在于,所述对多个所述融合特征图进行连接操作和上采样操作得到特征图像,包括:将所述第一特征图、对所述第二特征图进行上采样操作的结果、对所述第三特征图进行上采样操作的结果、对所述第四特征图进行上采样操作的结果、对所述第五特征图进行上采样操作的结果进行连接操作,得到特征图像。5.根据权利要求1所述的一种自适应文字检测方法,其特征在于,所述对所述特征图像进行边界检测处理以得到所述文字区域的边界,通过多个角点对所述文字区域的边界进行定位,生成所述文字区域的区域候选框,得到区域候选图,包括:对所述特征图像进行边界检测处理,通过初始的角点表示特征图像中的文字区域的边界;计算不同角点的偏移量,根...

【专利技术属性】
技术研发人员:康家杰秦传波麦超云
申请(专利权)人:五邑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1