基于边界预测的多方向文本区域检测方法和装置制造方法及图纸

技术编号：27879828 阅读：21 留言：0更新日期：2021-03-31 01:12

本发明专利技术实施例提供一种基于边界预测的多方向文本区域检测方法和装置，该方法包括：确定待测图像；将待测图像输入检测模型，输出文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；其中，检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定文本区域。本发明专利技术实施例提供的方法和装置，实现了多方向的文本区域检测和分离近距离的文本区域。

全部详细技术资料下载

【技术实现步骤摘要】
基于边界预测的多方向文本区域检测方法和装置
本专利技术涉及文本区域检测
，尤其涉及一种基于边界预测的多方向文本区域检测方法和装置。
技术介绍
图像文本区域检测作为计算机视觉的基本任务，已得到广泛的研究。图像文本区域检测旨在准确地定位图像中文本区域的位置，并且其为许多实际应用的重要技术，如图像/检索、自动驾驶、盲人导航。虽然目前对于文档图像的分析和识别方法已经成熟，但对于复杂背景图像如自然场景图像，由于背景和文本区域的混合、文本的任意方向性以及文本区域的任意形状性，使得检测图像中的文本区域仍具有很大的困难。近年来，随着卷积神经网络的快速发展，基于深度学习的图像文本区域检测也取得了很大的进展。基于深度学习的图像文本区域检测方法大致可以分为两类：基于边界框回归的方法和基于语义分割的方法。其中基于边界框回归的方法大多数是基于FasterRCNN、SSD和Yolo这些目标检测框架来实现的，其主要通过回归方法得到一些候选文本区域，然后对候选文本区域进行筛选；基于语义分割的方法是对图像中的像素进行文本/非文本分类，即判断图像中的每个像素是否属于文本像素，对输入图像中的每个像素进行打分，得到分数图，针对分数图再进行后处理得到候选文本区域。当前图像文本区域检测方法存在的缺陷主要有：基于边界框回归的方法比较适合检测水平方向的文本，需要复杂的网络结构设计才能够检测多方向上的文本；而基于语义分割的方法是对图像中的每个像素进行分类，因此该方法对方向不敏感，可以实现多方向的文本区域检测，但当两个文本区域离的比较近时，很难通...

【技术保护点】
1.一种基于边界预测的多方向文本区域检测方法，其特征在于，包括：/n确定待测图像；/n将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；/n其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；/n基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。/n

【技术特征摘要】
1.一种基于边界预测的多方向文本区域检测方法，其特征在于，包括：
确定待测图像；
将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；
其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；
基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。

2.根据权利要求1所述的基于边界预测的多方向文本区域检测方法，其特征在于，所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定待测图像中的文本区域，具体包括：
基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域；
若任一候选文本区域中包含的候选左边界区域或候选右边界区域或候选上边界区域或候选下边界区域的个数至少有一个超过1，则将所述任一候选文本区域按照个数超过1的边界区域进行分离确定待测图像中的文本区域。

3.根据权利要求2所述的基于边界预测的多方向文本区域检测方法，其特征在于，所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域，具体包括：
基于预设的文本分数阈值和所述文本分数图确定有效文本像素，根据连通域算法确定所述有效文本像素构成的候选文本区域；
基于预设的上边界分数阈值和所述上边界分数图确定有效上边界像素，根据连通域算法确定所述有效上边界像素构成的候选上边界区域；
基于预设的下边界分数阈值和所述下边界分数图确定有效下边界像素，根据连通域算法确定所述有效下边界像素构成的候选下边界区域；
基于预设的左边界分数阈值和所述左边界分数图确定有效左边界像素，根据连通域算法确定所述有效左边界像素构成的候选左边界区域；
基于预设的右边界分数阈值和所述右边界分数图确定有效上边界像素，根据连通域算法确定所述有效右边界像素构成的候选右边界区域。

4.根据权利要求1-3中任一项所述的基于边界预...

【专利技术属性】
技术研发人员：刘超，喻民，梁小霞，姜建国，刘超超，黄伟庆，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人