【技术实现步骤摘要】
文本图像的检测方法、装置、计算机设备和存储介质
本申请涉及文本检测
,特别是涉及一种文本图像的检测方法、装置、计算机设备和存储介质。
技术介绍
随着现代人工智能技术的发展,越来越多的繁琐工作被机器或电脑所取代。比如一些文本的识别录入,如果仅仅依靠人工来完成,不仅耗时费力,而且会因为操作人员的疲劳疏忽等原因导致问题的产生。因此,可以利用光学字符识别技术,从而通过计算机自动完成文本字符的识别和录入。而作为光学字符识别的基础,首先必然需要在各个场景中定位到文本区域,即文本定位技术是根本。目前使用较多的方法都是采用类似目标检测的定位分类方法,但是由于文本大多为长矩形,宽高比分布较为极端,与普通的目标检测中的物体不一样,普通物体宽高比基本在1左右,且存在明显的闭合边缘轮廓,而文本并没有这种明显的闭合边缘轮廓,从而导致直接提取文本的图像特征极容易和背景区分不开。
技术实现思路
基于此,有必要针对上述难以直接提取文本的图像特征的问题,提供一种文本图像的检测方法、装置、计算机设备和存储介质。为了实现 ...
【技术保护点】
1.一种文本图像的检测方法,其特征在于,所述方法包括:/n将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;/n采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;/n将所述具有可偏移的文本候选框映射回所述待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为所述待进行检测的文本图像的文本预测框。/n
【技术特征摘要】
1.一种文本图像的检测方法,其特征在于,所述方法包括:
将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图;
采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框;
将所述具有可偏移的文本候选框映射回所述待进行检测的文本图像上,采用非极大值抑制法去掉冗余的文本候选框,将得分最高的文本候选框作为所述待进行检测的文本图像的文本预测框。
2.根据权利要求1所述的文本图像的检测方法,其特征在于,所述具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络;所述将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中,得到多层特征图,包括:
将待进行检测的文本图像输入至所述金字塔特征提取网络;
由所述金字塔特征提取网络通过不同的卷积层进行特征融合,输出不同层次的特征图。
3.根据权利要求1所述的文本图像的检测方法,其特征在于,所述基于深度学习的文本检测模型的构建方法包括:
获取带有文本框的样本图像数据集,所述文本框包括标注了所述文本框的坐标信息的训练标签;
采用包括所述训练标签的所述样本图像数据集,利用反向传播算法训练深度学习网络模型,获得文本检测模型。
4.根据权利要求3所述的文本图像的检测方法,其特征在于,所述利用反向传播算法训练深度学习网络模型,采用的损失函数为多任务损失函数:
其中,L(x,c,l,g)表示模型的总损失,Lconf表示模型的分类损失,Lloc表示模型的定位损失,α表示定位损失占据的比重,g为标注的文本框,l为文本预测框,N表示匹配到标注的文本框的锚点框的数量,x表示匹配的文本框是否属于正样本的概率,取值0或1,c表示匹配的文本框属于正样本的置信度。
5.根据权利要求3所述的文本图像的检测方法,其特征在于,所述采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图,得到匹配的具有可偏移的文本候选框...
【专利技术属性】
技术研发人员:周康明,吴昊,
申请(专利权)人:上海眼控科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。