一种基于深度学习的图片倾斜文本检测方法技术

技术编号:27773044 阅读:64 留言:0更新日期:2021-03-23 12:57
本发明专利技术公开一种基于深度学习的图片倾斜文本检测方法。本发明专利技术针对CTPN模型无法检测倾斜文本的问题,提出一种新文本线构造法,通过对每个小候选框的上边界点、中心点和下边界点分别拟合三条直线,生成检测框的上边界、中心线和下边界,做中心线的垂线生成检测框的左右边界,以此方法生成完整的文本检测框。通过使用本发明专利技术中的文本线构造方法可以检测图像中具有倾斜角度的文本行,去除传统检测水平文本行中生成的大量背景,大幅提高了检测模型的准确性和可扩展性,也避免了在后续识别阶段引入不必要的噪声。

【技术实现步骤摘要】
一种基于深度学习的图片倾斜文本检测方法
本专利技术涉及一种图片文本检测方法,更具体地说,本专利技术涉及计算机视觉领域,一种基于深度学习的图片倾斜文本检测方法。
技术介绍
随着互联网和移动互联网技术的高速发展,越来越多的新型应用场景需要利用图像中的文字信息。文字相对于图像/视频中的其他内容,往往包含更强的语义信息,有更强的逻辑性和更概括的表达力。首先文字作为一种载体,包含着丰富而准确的高层语义信息,传达着人类的思想和情感,一般的图像或视频信息很难直接描述,但是文字可以做到。其次文字是视觉识别的重要线索,借助图片或视频中的文字可以精确获知一些信息,同时文字与其他视觉线索(边缘、颜色、纹理等)有着非常强的互补作用。因此从海量的图片中快速检索感兴趣的文字可以极大提高人们的认知效率。文字检测是在图片中定位文字的过程,通常出于场景文本识别系统的第一步,其结果直接影响到后续文字识别的性能。此外,检测的输入是整张图片,相对的计算耗时也更多,容易成为系统的性能瓶颈。因此,场景文字检测在识别系统中地位关键。近年来,随着深度学习的兴起和发展,计算机视觉得到了本文档来自技高网...

【技术保护点】
1.一种基于深度学习的图片倾斜文本检测方法,其特征在于包括以下步骤:/n步骤1:收集大量含有倾斜角度文本行的图片数据,同时获取每张图片对应的文本框标注数据;/n步骤2:对步骤(1)收集的图片数据和文本标注数据分别做预处理;/n步骤3:将步骤(2)预处理得到的图片数据和文本标注数据送入CTPN模型中,得到候选提议框的坐标值和文本分类概率值;CTPN模型网络结构包括VGG16、BiLSTM、全连接层;/n步骤4:使用步骤(3)CTPN模型获取预测的候选提议框及文本分类概率值,进行文本对匹配,结合优化的文本线构造法,将文本框进行合并得到整个文本行的检测框;/n所述文本线构造方法具体是对同一行的文本区...

【技术特征摘要】
1.一种基于深度学习的图片倾斜文本检测方法,其特征在于包括以下步骤:
步骤1:收集大量含有倾斜角度文本行的图片数据,同时获取每张图片对应的文本框标注数据;
步骤2:对步骤(1)收集的图片数据和文本标注数据分别做预处理;
步骤3:将步骤(2)预处理得到的图片数据和文本标注数据送入CTPN模型中,得到候选提议框的坐标值和文本分类概率值;CTPN模型网络结构包括VGG16、BiLSTM、全连接层;
步骤4:使用步骤(3)CTPN模型获取预测的候选提议框及文本分类概率值,进行文本对匹配,结合优化的文本线构造法,将文本框进行合并得到整个文本行的检测框;
所述文本线构造方法具体是对同一行的文本区域进行文本行拼接,形成最终的文本区域,具体实现步骤如下:
(1)由于boxi与boxj为匹配对,则boxi与boxj中间所有的候选提议框,以及boxi与boxj两个端点构成一个文本拼接组;
(2)文本拼接组中每一个候选提议框的中心点拟合成一条直线L;设直线L与文本拼接组左边界的交点为点P1,直线L与文本拼接组右边界的交点为点P2;
(3)判断直线L的斜率是否大于0,若是则由文本拼接组中每一个候选提议框的左上角点拟合成一条直线L1,由文本拼接组中每一个候选提议框的右下角点拟合成一条直线L2;若否则由文本拼接组中每一个候选提议框的右上角点拟合一条直线L1,由文本拼接组中每一个候选提议框的左下角点拟合一条直线L2;
(4)通过P1做L的垂线,该垂线分别与L1、L2相交于点A、D,通过P2做L的垂线分别与L1、L2相交于点B、C,最终ABCD四点构成的四边形即为文本行检测区域。


2.如权利要求1所述的一种基于深度学习的图片倾斜文本检测方法,其特征在于所述文本框标注数据是指每张图片对应一个相同命名的文本文件;文本文件中包含多行数据,每行数据对应图片中的一个文本行标记框位置信息;每行的标注格式有QUAD和RBOX两种格式。


3.如权利要求1所述的一种基于深度学习的图片倾斜文本检测方法,其特征在于步骤2具体的步骤如下:
2.1图片数据预处理
对于图片大小的限制是保持图片宽高比不变,且最短边不大于600像素,长边不大于1200像素;计算公式如下:



w′=λ*w(2)
h′=λ*h(3)
其中w为输入图像的最短边,h为输入图像的最长边,λ为图像的缩放比例,w′为图像缩放后的最短边,h′为图像缩放后的最长边;
2.2文本标注数据预处理
2.2.1文本标注数据格式统一
对步骤(1)收集的文本框标注数据格式转换为QUAD格式;具体是:
以点(x0,y0)为旋转中心点,若文本行标记框的旋转角度θ>0,则将(x,y)点顺时针旋转角度θ后得到的新坐标点(x′,y′)的计算公式如下:
x′=(x-x0)*cos(θ...

【专利技术属性】
技术研发人员:周仁杰范晴任永坚万健张纪林赵乃良殷昱煜蒋从锋郭星宇金振明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1