一种基于连接文字段的自然图片中多方向文本检测方法技术

技术编号：15725183 阅读：97 留言：0更新日期：2017-06-29 12:59

本发明专利技术公开了一种基于连接文字段的自然图片中多方向文本检测方法，文字段和连接是该检测方法中关键的两个步骤，定义如下：文字段指的是在图片上划分出许多单个多方向的包围盒区域，它们包围着一个文字条或者单词的一部分；连接指的是将相邻的字段连接起来，意味着它们属于同一个单词或同一句话。文字段和连接合起来使用一个端到端训练的全卷积神经网络以多种尺度进行等间隔地检测。最后的检测结果是先连接多个文字段组成新区域，然后对这些新区域进行组合而得到的。本发明专利技术提出的检测方法相对于现有技术在准确率、速度和模型简易度这些方面都取得了卓越的效果，效率高且鲁棒性强，能克服复杂的图片背景，另外也能检测图像中非拉丁文字的长文本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于连接文字段的自然图片中多方向文本检测方法
本专利技术属于计算机视觉
，更具体地，涉及一种基于连接文字段的自然图片中多方向文本检测方法。
技术介绍
读取自然图片中的文本是一个充满挑战的热门任务，在照片光学识别、地理定位和图像检索方面都有许多实际的应用。在文本读取系统中，文字检测就是在单词级别或文字条级别上以包围盒来定位文字区域，它通常都作为非常关键的第一步。从某种意义上而言，文字检测也可以视为一种特殊的物体检测，即将单词、字符或文字条作为检测的目标。尽管已有的技术已经在将物体检测方法应用于文字检测上取得了极大的成功，但是物体检测方法在定位文字区域方面仍有几点明显的不足。第一，单词或文字条的长宽比通常都比一般物体要大的多，之前的方法难以产生这种比例的包围盒；第二，一些非拉丁语的文本在相邻单词之间并不包含空格，比如中文汉字。已有的技术都只能检测到单词，在检测这种文本时就会不适用，因为这种不包含空格的文本无法提供划分不同单词的视觉信息。第三，在大型自然场景图片中，文字可能是任意方向的，然而现有的技术绝大多数都只能检测水平方向的文字。因此自然场景图片中的文本检测仍然是计算机视觉
的难点之一。
技术实现思路
本专利技术的目的在于提供一种基于连接文字段的自然图片中多方向文本检测方法，该方法检测文本准确率高，速度快，模型简易，且鲁棒性强，能克服复杂的图片背景，另外也能检测非拉丁文字的长文本。为实现上述目的，本专利技术从一个全新的视角来解决场景文字检测问题，提供了一种基于连接文字段的自然图片中多方向文本检测方法，包括下述步骤：(1)训练文字段连接检测网络模型...

【技术保护点】
一种基于连接文字段的自然图片中多方向文本检测方法，其特征在于，所述方法包括下述步骤：(1)训练文字段连接检测网络模型，包括如下子步骤：(1.1)以词条级别标记训练图像集中所有文本图像的文本内容，标签为词条的矩形初始包围盒的四个点坐标，得到训练数据集；(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段连接检测网络模型，所述文字段连接检测网络模型由级联卷积神经网络和卷积预测器组成，根据上述训练数据集计算得到文字段和连接的标签，设计损失函数，结合在线扩增和在线负样本难例挖掘方法，利用反向传导方法训练该文字段连接检测网络，得到文字段连接检测网络模型；(2)利用上述训练好的文字段连接检测网络模型对待检测文本图像进行文字段和连接检测，包括如下子步骤：(2.1)对待检测文本图像进行文字段检测，由不同卷积层输出的特征图预测出不同尺度的文字段，由同一卷积层输出的特征图预测出相同尺度的文字段；(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测，所述连接包括层内连接和跨层连接；(2.3)将检测得到的文字段的置信度得分和连接置信度得分组合，其中文字段置信度得分包括文字段正负类别得分...

【技术特征摘要】
1.一种基于连接文字段的自然图片中多方向文本检测方法，其特征在于，所述方法包括下述步骤：(1)训练文字段连接检测网络模型，包括如下子步骤：(1.1)以词条级别标记训练图像集中所有文本图像的文本内容，标签为词条的矩形初始包围盒的四个点坐标，得到训练数据集；(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段连接检测网络模型，所述文字段连接检测网络模型由级联卷积神经网络和卷积预测器组成，根据上述训练数据集计算得到文字段和连接的标签，设计损失函数，结合在线扩增和在线负样本难例挖掘方法，利用反向传导方法训练该文字段连接检测网络，得到文字段连接检测网络模型；(2)利用上述训练好的文字段连接检测网络模型对待检测文本图像进行文字段和连接检测，包括如下子步骤：(2.1)对待检测文本图像进行文字段检测，由不同卷积层输出的特征图预测出不同尺度的文字段，由同一卷积层输出的特征图预测出相同尺度的文字段；(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测，所述连接包括层内连接和跨层连接；(2.3)将检测得到的文字段的置信度得分和连接置信度得分组合，其中文字段置信度得分包括文字段正负类别得分和偏移量得分，利用卷积预测器输出softmax标准化得分；(3)组合文字段和连接，得到输出包围盒，包括如下子步骤：(3.1)根据(2.3)中检测得到的标准化得分，过滤卷积预测器输出的文字段和连接，以过滤后的文字段作为节点，以连接作为边，构建连接图；(3.2)在图上执行深度优先搜索以找到相互连接的组件，每个组件记作集合S，包含由连接相连起来的文字段；(3.3)将一个集合中的文字段组合成一个完整的词条，计算完整的词条包围盒并输出。2.根据权利要求1所述的基于连接文字段的自然图片中多方向文本检测方法，其特征在于，所述步骤(1.2)具体为：(1.2.1)构建文字段检测卷积神经网络模型：提取特征的前几层卷积单元来自预训练的VGG-16网络，前几层卷积单元为卷积层1到池化层5，全连接层6和全连接层7分别转换为卷积层6和卷积层7，连接在其后的是一些额外加入的卷积层，用于提取更深度的特征进行检测，包括卷积层8、卷积层9、卷积层10，最后一层是卷积层11；后6个不同的卷积层分别输出不同尺寸的特征图，便于提取出多种尺度的高质量特征，检测文字段和连接是在这六个不同尺寸的特征图上进行的；对于这6个卷积层，每一层之后都添加尺寸为3×3的滤波器作为卷积预测器，来共同检测文字段和连接；(1.2.2)从标注的词包围盒产生文字段包围盒标签：对于原始训练图像集Itr，记缩放后的训练图像集为Itr′，wI、hI分别为Itr′的宽度和高度，以第i张图片Itri′作为模型输入，Itri′上标注的所有词包围盒记作Wi＝[Wi1，...，Wip]，其中Wij为第i张图片上的第j个词包围盒，词包围盒是单词级别或者词条级别，j＝1，...，p，p为Itri′上词包围盒的总数量；记后6层卷积层分别输出的特征图构成集合Itroi′＝[Itroi1′，...，Itroi6′]，其中Itroil′为后6层卷积层中第l层输出的特征图，wl、hl分别为该特征图的宽度和高度，Itroil′上的坐标(x，y)对应Itri′上以(xa，ya)为中心点坐标的水平初始包围盒Bilq，它们满足下列公式：初始包围盒Bilq的宽和高都被设置成一个常数al，用于控制输出文字段的比例，l＝1，...，6；记第l层输出的特征图Itroil′对应的初始包围盒集合为Bil＝[Bil1，...，Bilm]，q＝1，...，m，其中m为第l层输出的特征图上初始包围盒的数目；只要初始包围盒Bilq的中心被包含在Itr′上任一标注的词包围盒Wij内部，且Bilq的尺寸al和该标注的词包围盒Wij的高度h满足：那么这个初始包围盒Bilq被标记为正类，标签取值为1，并与高度最为接近的那个词包围盒Wij匹配；否则，当Bilq与所有词包围盒Wi都不满足上述两个条件时，Bilq就被标记为负类，标签取值为0；文字段在初始包围盒上产生，与初始包围盒标签类别相同；(1.2.3)在所述步骤(1.2.2)产生的带标签的初始包围盒上产生文字段并计算正类文字段偏移量：负类文字段包围盒s-为负类初始包围盒B-；正类文字段包围盒s+由正类初始包围盒B+经过以下步骤得到：a)记正类初始包围盒B+匹配到的标注词包围盒W与水平方向夹角为θs，以B+的中心点为中心，将W顺时针旋转θs角；b)裁剪W，去除超出B+左边和右边的部分；c)以B+的中心点为中心，将裁剪后的词包围盒W′逆时针旋转θs角，得到文字段s+真实标签的几何参数xs、ys、ws、hs、θs；d)计算得到文s+相对于B+的偏移量(Δxs，Δys，Δws，Δhs，Δθs)，计算公式如下：xs＝alΔxs+xays＝alΔys+yaws＝alexp(Δws)hs＝alexp(Δhs)θs＝Δθs其中，xs、ys、ws、hs、θs分别为文字段包围盒s+的中心点横坐标、中心点纵坐标、宽度、高度以及与水平方向之间的夹角；xa、ya、wa、ha分别为水平初始包围盒B+的中心点横坐标、中心点纵坐标、宽度、高度；Δxs、Δys、Δws、Δhs、Δθs分别为文字段包围盒s+中心点横坐标xs相对初始包围盒B+的偏移量、纵坐标ys相对初始包围盒的偏移量、宽度ws的偏移变化量、高度hs的偏移变化量、角度θs的偏移量；(1.2.4)对于步骤(1.2.3)产生的文字段包围盒计算连接标签：文字段s是在初始包围盒B上产生的，因此s之间的连接标签和它们对应的初始包围盒B之间的连接标签相同；对于特征图集合Itroi′＝[Itroi1′，...，Itroi6′]，如果在同一张特征图Itroil′的初始包围盒集合Bil里，两个初始包围盒的标签都是正类，且匹配到同一个词，那么之间的层内连接被标记为正类，否则标记为负类；如果在特征图Itroil′对应的初始包围盒集合Bil里的初始包围盒和Itroi(l-1)′对应的的初始包围盒集合Bi(l-1)里的初始包围盒的标签都是正类且匹配到同一个词包围盒那么之间的跨层连接被标记为正类，否则标记为负类；(1.2.5)以缩放后的训练图像集Itr′作为文字段检测模型输入，预测文字段s输出：对模型初始化权重和偏置，前6万次训练迭代步骤学习率设置为10-3，之后学习率衰减到10-4；对于后6层卷积层，在第l层特征图Itroil′上的坐标(x，y)处，(x，y)对应到输入图像Itri′上以(xa，ya)为中心点坐标、以al为尺寸的初始包围盒Bilq，3×3的卷积预测器都会预测出Bilq被分别划分成正、负类的得分cs，cs为二维向量，取值范围为0-1之间的小数；同时也预测出5个数字作为被划分到正类文字段s+时的几何偏移量，其中分别为预测的文字段包围盒s+中心点横坐标相对正类初始包围盒B+的偏移量、纵坐标的相对正类初始包围盒B+的偏移量、高度的偏移变化量、宽度的偏移变化量、角度偏移量；(1.2.6)在已预测的文字段基础上预测层内连接和跨层连接输出：对于层内连接，在同一张特征图Itroil′上坐标点(x，y)处，取x-1≤x′≤x+1、y-1≤y′≤y+1范围内近邻的点(x′，y′)，这8个点对应到输入图像Itri′时，便获得了与(x，y)对应的基准文字段s(x，y，l)相连接的层内近邻文字段s...

【专利技术属性】
技术研发人员：白翔，石葆光，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人