基于边界预测的多方向文本区域检测方法和装置制造方法及图纸

技术编号:27879828 阅读:21 留言:0更新日期:2021-03-31 01:12
本发明专利技术实施例提供一种基于边界预测的多方向文本区域检测方法和装置,该方法包括:确定待测图像;将待测图像输入检测模型,输出文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图;其中,检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的;基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定文本区域。本发明专利技术实施例提供的方法和装置,实现了多方向的文本区域检测和分离近距离的文本区域。

【技术实现步骤摘要】
基于边界预测的多方向文本区域检测方法和装置
本专利技术涉及文本区域检测
,尤其涉及一种基于边界预测的多方向文本区域检测方法和装置。
技术介绍
图像文本区域检测作为计算机视觉的基本任务,已得到广泛的研究。图像文本区域检测旨在准确地定位图像中文本区域的位置,并且其为许多实际应用的重要技术,如图像/检索、自动驾驶、盲人导航。虽然目前对于文档图像的分析和识别方法已经成熟,但对于复杂背景图像如自然场景图像,由于背景和文本区域的混合、文本的任意方向性以及文本区域的任意形状性,使得检测图像中的文本区域仍具有很大的困难。近年来,随着卷积神经网络的快速发展,基于深度学习的图像文本区域检测也取得了很大的进展。基于深度学习的图像文本区域检测方法大致可以分为两类:基于边界框回归的方法和基于语义分割的方法。其中基于边界框回归的方法大多数是基于FasterRCNN、SSD和Yolo这些目标检测框架来实现的,其主要通过回归方法得到一些候选文本区域,然后对候选文本区域进行筛选;基于语义分割的方法是对图像中的像素进行文本/非文本分类,即判断图像中的每个像素是否属于文本像素,对输入图像中的每个像素进行打分,得到分数图,针对分数图再进行后处理得到候选文本区域。当前图像文本区域检测方法存在的缺陷主要有:基于边界框回归的方法比较适合检测水平方向的文本,需要复杂的网络结构设计才能够检测多方向上的文本;而基于语义分割的方法是对图像中的每个像素进行分类,因此该方法对方向不敏感,可以实现多方向的文本区域检测,但当两个文本区域离的比较近时,很难通过语义分割的方法将他们分离开。目前,有极少的基于语义分割的实现分离近距离的文本区域,但它们的训练过程和后处理过程都比较复杂。因此,如何避免现有的图像文本区域检测方法的无法实现多方向的文本区域检测,难以分离近距离的文本区域,仍然是本领域技术人员亟待解决的问题。
技术实现思路
本专利技术实施例提供一种基于边界预测的多方向文本区域检测方法和装置,用以解决现有的图像文本区域检测方法的无法实现多方向的文本区域检测和难以分离近距离的文本区域的问题。第一方面,本专利技术实施例提供一种基于边界预测的多方向文本区域检测方法,包括:确定待测图像;将所述待测图像输入检测模型,输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图;其中,所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的;基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。该方法中,所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定待测图像中的文本区域,具体包括:基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域;若任一候选文本区域中包含的候选左边界区域或候选右边界区域或候选上边界区域或候选下边界区域的个数至少有一个超过1,则将所述任一候选文本区域按照个数超过1的边界区域进行分离确定待测图像中的文本区域。该方法中,所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域,具体包括:基于预设的文本分数阈值和所述文本分数图确定有效文本像素,根据连通域算法确定所述有效文本像素构成的候选文本区域;基于预设的上边界分数阈值和所述上边界分数图确定有效上边界像素,根据连通域算法确定所述有效上边界像素构成的候选上边界区域;基于预设的下边界分数阈值和所述下边界分数图确定有效下边界像素,根据连通域算法确定所述有效下边界像素构成的候选下边界区域;基于预设的左边界分数阈值和所述左边界分数图确定有效左边界像素,根据连通域算法确定所述有效左边界像素构成的候选左边界区域;基于预设的右边界分数阈值和所述右边界分数图确定有效上边界像素,根据连通域算法确定所述有效右边界像素构成的候选右边界区域。该方法中,所述检测模型训练时使用的神经网络包括特征提取网络、特征融合网络和分数预测网络;所述特征提取网络由两个均含有两个卷积层和一个池化层的局部网络和三个均含三个卷积层和一个池化层的局部网络依次连接构成;所述特征提取网络的5个局部网络依次输出样本文本图像的下采样2倍特征图、下采样4倍特征图、下采样8倍特征图、下采样16倍特征图和下采样32倍特征图。该方法中,所述特征融合网络由三个阶段网络依次连接组成,任一所述阶段网络以预设连接规则将一个反卷积层、一个融合层、一个标准化层、一个卷积层、一个标准化层和一个卷积层进行连接;上述三个阶段网络按照预设规则进行特征图融合后依次输出特征融合后的下采样8倍特征图、下采样16倍特征图和下采样32倍特征图。该方法中,所述特征融合网络中的融合规则通过如下公式表示:其中,fi为所述特征提取网络中的第i个局部网络输出的特征图,ui表示所述特征融合网络中第i阶段网络的特征融合结果输出,[a;b]表示将特征图a和特征图b沿着通道轴进行连接;UpSampling×2表示上采样2倍操作。该方法中,所述检测模型训练时的损失函数包括文本区域误差项和各边界区域误差项。第二方面,本专利技术实施例提供一种基于边界预测的多方向文本区域检测装置,包括:确定单元,用于确定待测图像;检测单元,用于将所述待测图像输入检测模型,输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图;其中,所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的;分离单元,用于基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的基于边界预测的多方向文本区域检测方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序本文档来自技高网
...

【技术保护点】
1.一种基于边界预测的多方向文本区域检测方法,其特征在于,包括:/n确定待测图像;/n将所述待测图像输入检测模型,输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图;/n其中,所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的;/n基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。/n

【技术特征摘要】
1.一种基于边界预测的多方向文本区域检测方法,其特征在于,包括:
确定待测图像;
将所述待测图像输入检测模型,输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图;
其中,所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的;
基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。


2.根据权利要求1所述的基于边界预测的多方向文本区域检测方法,其特征在于,所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定待测图像中的文本区域,具体包括:
基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域;
若任一候选文本区域中包含的候选左边界区域或候选右边界区域或候选上边界区域或候选下边界区域的个数至少有一个超过1,则将所述任一候选文本区域按照个数超过1的边界区域进行分离确定待测图像中的文本区域。


3.根据权利要求2所述的基于边界预测的多方向文本区域检测方法,其特征在于,所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域,具体包括:
基于预设的文本分数阈值和所述文本分数图确定有效文本像素,根据连通域算法确定所述有效文本像素构成的候选文本区域;
基于预设的上边界分数阈值和所述上边界分数图确定有效上边界像素,根据连通域算法确定所述有效上边界像素构成的候选上边界区域;
基于预设的下边界分数阈值和所述下边界分数图确定有效下边界像素,根据连通域算法确定所述有效下边界像素构成的候选下边界区域;
基于预设的左边界分数阈值和所述左边界分数图确定有效左边界像素,根据连通域算法确定所述有效左边界像素构成的候选左边界区域;
基于预设的右边界分数阈值和所述右边界分数图确定有效上边界像素,根据连通域算法确定所述有效右边界像素构成的候选右边界区域。


4.根据权利要求1-3中任一项所述的基于边界预...

【专利技术属性】
技术研发人员:刘超喻民梁小霞姜建国刘超超黄伟庆
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1