场景图像中的文本检测方法、装置及计算机设备制造方法及图纸

技术编号:25398133 阅读:27 留言:0更新日期:2020-08-25 23:02
本发明专利技术涉及图像处理技术领域,具体涉及场景图像的文本检测方法、装置及计算机设备,该方法包括:通过训练后的全卷积网络模型,检测确定所述场景图像中的若干个文本预测框;筛选在所述文本预测框内的高置信度像素点;根据所述高置信度像素点,计算所述文本预测框对应的最小外接矩形;在重叠度大于预设的重叠度阈值时,通过所述最小外接矩形调整所述文本预测框的宽度;在所述场景图像中切割获得待识别文本图像并识别其中的文本信息。本发明专利技术实施例提供的方法可以在使用EAST方法实现文本检测的基础上,通过高置信度的区域对文本预测框的宽度进行校正和调整,使其宽度可靠的被缩小,实现更加精确的文本识别。

【技术实现步骤摘要】
场景图像中的文本检测方法、装置及计算机设备
本专利技术涉及图像处理
,具体涉及场景图像中的文本检测方法、装置及计算机设备。
技术介绍
基于计算机视觉的文字识别在现今的大数据时代具有非常重大的使用意义。其是许多智能化功能(例如推荐系统、机器翻译等)的实现基础。而文本检测作为文字识别过程的前提条件,其检测精准度对于文字识别的效果具有显著的影响。在复杂的自然场景下,文本存在多种不同位置的分布、排布形式多样、分布方向不一致以及多语言混合等的特点,因此文本检测的任务极具挑战性。传统技术中存在一种被称为CTPN的文本检测算法,其基于将完整文本先分割检测再合并的思路来实现自然场景下的文本检测。传统技术通过分割再合并的方式检测文本一方面检测精度不准确,另一方面会过度消耗检测时间,用户体验差,基于此,还有人提出了一种被称为EAST(anefficientandaccuratescenetextdetector)的文本检测方法。其借助FCN的架构来进行特征提取和学习,直接进行端到端的训练和优化,消除不必要的中间步骤。但是,在EAST的实际应用过程中,仍然存在着许多的局限性,无法很好的满足实际使用的需求。例如,最终获得的文本预测框的宽度与场景中实际的文本不相符,因此传统技术需要在EAST的实际应用基础上,进一步改进。
技术实现思路
本专利技术旨在解决现有的EAST算法识别精度无法满足实际使用需求的技术问题。为解决上述技术问题,第一方面,本专利技术实施例提供了一种场景图像中的文本检测方法,包括:对全卷积网络模型进行训练优化;通过训练后的所述全卷积网络模型,检测确定所述场景图像中的若干个文本预测框;筛选在所述文本预测框内,置信度大于预设的置信度阈值的像素点作为高置信度像素点,所述置信度为所述全卷积网络模型输出的,像素点属于文本预测框的概率;根据所述高置信度像素点,计算所述文本预测框对应的最小外接矩形,所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内,面积最小的矩形;计算所述文本预测框与对应的最小外接矩形之间的重叠度;在所述重叠度大于预设的重叠度阈值时,通过所述最小外接矩形调整所述文本预测框的宽度;在所述场景图像中切割所述调整后的文本预测框,获得待识别文本图像;识别所述待识别文本图像中的文字。可选地,在计算所述文本预测框与对应的最小外接矩形之间的重叠度之前,所述方法还,包括:计算所述最小外接矩形内的高置信度像素点的置信度平均值;在所述置信度平均值小于预设的筛选阈值时,剔除所述最小外接矩形。可选地,所述对全卷积网络模型进行训练优化,包括:构建全卷积网络模型;标注训练标签,构建训练数据集;通过所述训练数据集和预设的损失函数,对所述全卷积网络模型进行训练优化。可选地,所述计算所述文本预测框与对应的最小外接矩形之间的重叠度,包括:确定同时在所述文本预测框和所述最小外接矩形之内的像素点为第一像素点;确定只属于所述文本预测框或所述最小外接矩形之内的像素点为第二像素点;计算所述第一像素点和所述第二像素点的数量之和;计算所述第一像素点的数量与所述第一像素点和所述第二像素点的数量之和之间的比值,作为所述重叠度。可选地,在所述重叠度大于预设的重叠度阈值时,所述文本预测框通过如下公式调整:P1=w*p+(1-w)*d,其中,P1为调整后的文本预测框宽度,w为权重系数,p为所述文本预测框的宽度,d为所述对应的最小外接矩形的宽度。可选地,所述根据所述高置信度像素点,计算所述文本预测框对应的最小外接矩形,包括:确定所述高置信度像素点中,距离最远的两个高置信度像素点为长度标定像素点;以所述长度标定像素点之间的连线作为第一方向,确定在与所述第一方向垂直的第二方向上,距离最远的两个高置信度像素点作为宽度标定像素点;以经过所述长度标定像素点并且与所述长度标定像素点之间的连线垂直的第一线段作为长的同时,以经过所述宽度标定像素点并且与所述宽度标定像素点之间的连线垂直的第二线段作为宽,围成所述最小外接矩形。第二方面,本专利技术实施例提供了一种场景图像的文本检测装置,包括:训练单元,用于对全卷积网络模型进行训练优化;文本预测框检测单元单元,用于通过训练后的所述全卷积网络模型,检测确定所述场景图像中的若干个文本预测框;筛选单元,用于筛选在所述文本预测框内,置信度大于预设的置信度阈值的像素点作为高置信度像素点,所述置信度为所述全卷积网络模型输出的,像素点属于文本预测框的概率;最小外接矩形确定单元,用于根据所述高置信度像素点,计算所述文本预测框对应的最小外接矩形,所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内,面积最小的矩形;重叠度计算单元,用于计算所述文本预测框与对应的最小外接矩形之间的重叠度;调整单元,用于在所述重叠度大于预设的重叠度阈值时,通过所述最小外接矩形调整所述文本预测框的宽度;切割单元,用于在所述场景图像中切割所述调整后的文本预测框,获得待识别文本图像;文本识别单元,用于识别所述待识别文本图像中的文本信息。可选地,还包括:置信度计算单元,用于计算所述最小外接矩形内的高置信度像素点的置信度平均值;最小外接矩形筛选单元,用于在所述置信度平均值小于预设的筛选阈值时,剔除所述最小外接矩形。第三方面,本专利技术实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述场景图像的文本检测方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述场景图像的文本检测方法。本专利技术实施例提供的文本检测方法,可以在使用EAST方法实现文本检测的基础上,通过高置信度的区域对文本预测框的宽度进行校正和调整,使得文本预测框的宽度可靠的被缩小,实现更加精确的文本识别。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种计算机设备的结构示意图;图2为本专利技术实施例提供的一种场景图像的文本检测方法的流程示意图;图3为图1中步骤20的流程示意图;图4为本专利技术实施例提供的筛选最小外接矩形的流程示意图;图5为本专利技术实施例提供的一种场景图像的文本检测装置的示意图;图6为本专利技术另一实施例提供的一种场景图像的文本检测装置的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其本文档来自技高网...

【技术保护点】
1.一种场景图像的文本检测方法,其特征在于,包括:/n对全卷积网络模型进行训练优化;/n通过训练后的所述全卷积网络模型,检测确定所述场景图像中的若干个文本预测框;/n筛选在所述文本预测框内,置信度大于预设的置信度阈值的像素点作为高置信度像素点,所述置信度为所述全卷积网络模型输出的,像素点属于文本预测框的概率;/n根据所述高置信度像素点,计算所述文本预测框对应的最小外接矩形,所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内,面积最小的矩形;/n计算所述文本预测框与对应的最小外接矩形之间的重叠度;/n在所述重叠度大于预设的重叠度阈值时,通过所述最小外接矩形调整所述文本预测框的宽度;/n在所述场景图像中切割所述调整后的文本预测框,获得待识别文本图像;/n识别所述待识别文本图像中的文本信息。/n

【技术特征摘要】
1.一种场景图像的文本检测方法,其特征在于,包括:
对全卷积网络模型进行训练优化;
通过训练后的所述全卷积网络模型,检测确定所述场景图像中的若干个文本预测框;
筛选在所述文本预测框内,置信度大于预设的置信度阈值的像素点作为高置信度像素点,所述置信度为所述全卷积网络模型输出的,像素点属于文本预测框的概率;
根据所述高置信度像素点,计算所述文本预测框对应的最小外接矩形,所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内,面积最小的矩形;
计算所述文本预测框与对应的最小外接矩形之间的重叠度;
在所述重叠度大于预设的重叠度阈值时,通过所述最小外接矩形调整所述文本预测框的宽度;
在所述场景图像中切割所述调整后的文本预测框,获得待识别文本图像;
识别所述待识别文本图像中的文本信息。


2.根据权利要求1所述的场景图像的文本检测方法,其特征在于,在计算所述文本预测框与对应的最小外接矩形之间的重叠度之前,所述方法还包括:
计算所述最小外接矩形内的高置信度像素点的置信度平均值;
在所述置信度平均值小于预设的筛选阈值时,剔除所述最小外接矩形。


3.根据权利要求2所述的场景图像的文本检测方法,其特征在于,所述对全卷积网络模型进行训练优化,包括:
构建全卷积网络模型;
标注训练标签,构建训练数据集;
通过所述训练数据集和预设的损失函数,对所述全卷积网络模型进行训练优化。


4.根据权利要求1所述的场景图像的文本检测方法,其特征在于,所述计算所述文本预测框与对应的最小外接矩形之间的重叠度,包括:
确定同时在所述文本预测框和所述最小外接矩形之内的像素点为第一像素点;
确定只属于所述文本预测框或所述最小外接矩形之内的像素点为第二像素点;
计算所述第一像素点和所述第二像素点的数量之和;
计算所述第一像素点的数量与所述第一像素点和所述第二像素点的数量之和之间的比值,作为所述重叠度。


5.根据权利要求1所述的场景图像的文本检测方法,其特征在于,在所述重叠度大于预设的重叠度阈值时,所述文本预测框通过如下公式调整:
P1=w*p+(1-w)*d,
其中,P1为调整后的文本预测框宽度,w为权重系数,p为所述文本预测框的宽度,d为所述对应的最小外接矩形的宽度。


6.根据权利要求1所述...

【专利技术属性】
技术研发人员:高远
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1