一种任意形状的文本检测和矫正方法技术

技术编号:26971566 阅读:30 留言:0更新日期:2021-01-06 00:02
本发明专利技术公开了一种任意形状的文本检测和矫正方法,包括:对文本图片样本数据集进行数据标注,构建基于训练标签的神经网络文本检测模型,并训练文本检测模型;利用训练好的模型,检测待检测文本图片中每个文本行的核心区域和边界区域,通过对核心区域和边界区域计算,得到二值化且更新后的核心区域;筛选得分较高的核心区域,并对其进行扩张,得到文本区域;确定得到的文本区域的上边界点和下边界点;对文本区域的上边界点和下边界点分别拟合贝塞尔曲线控制点,计算得到每个文本行的上下两条贝塞尔曲线;矫正每个文本行的两条贝塞尔曲线围成的任意形状文本为矩形文本。本发明专利技术实现对任意形状的文本能进行检测与校正,且矫正效果佳。

【技术实现步骤摘要】
一种任意形状的文本检测和矫正方法
本专利技术涉及文本检测方法
,具体涉及一种任意形状的文本检测和矫正方法。
技术介绍
随着深度学习技术的发展,基于深度学习的OCR识别框架,已在工业界得到广泛应用。目前,OCR文本检测采用基于候选框和实例分割的方法。基于候选框的文本检测方法,首先通过对特征图上的锚点定义若干个不同尺寸的矩形框;然后通过矩形框的边框回归以及矩形框的预测得分来确定候选框;最后通过候选框的非极大值抑制来确定文本框。基于实例分割的文本检测方法,首先通过判断特征图上所有像素点的类别,确定是否包含文本;然后通过计算包含文本像素的连通域来最终确定文本区域。对于垂直或水平矩形的文本区域,基于候选框的文本检测方法,准确率高,速度快;对于倾斜的矩形文本区域,基于实例分割的文本检测方法,准确率高,速度较慢。目前,文本检测还存在如下不足:1、基于候选框的文本检测方法对于超长文本,准确率较低;2、基于候选框的文本检测方法对于任意形状的文本,准确率较低;3、基于实例分割的文本检测方法,对于文本行密集的样本,检测结果容易出现粘连,导致准确率较低;本文档来自技高网...

【技术保护点】
1.一种任意形状的文本检测和矫正方法,其特征在于,该方法包括以下步骤:/nS1:对文本图片样本数据集进行数据标注,构建基于训练标签的神经网络文本检测模型,并训练文本检测模型;/nS2:利用步骤S1训练好的基于训练标签的神经网络文本检测模型检测待检测文本图片中每个文本行的核心区域和边界区域,通过对核心区域和边界区域计算,得到二值化且更新后的核心区域;/nS3:根据步骤S2得到的二值化且更新后的核心区域,从中筛选得分较高的核心区域,并对其进行扩张,得到文本区域;/nS4:确定步骤S3得到的文本区域的上边界点和下边界点;/nS5:对步骤S4中文本区域的上边界点和下边界点分别拟合贝塞尔曲线控制点,计算...

【技术特征摘要】
1.一种任意形状的文本检测和矫正方法,其特征在于,该方法包括以下步骤:
S1:对文本图片样本数据集进行数据标注,构建基于训练标签的神经网络文本检测模型,并训练文本检测模型;
S2:利用步骤S1训练好的基于训练标签的神经网络文本检测模型检测待检测文本图片中每个文本行的核心区域和边界区域,通过对核心区域和边界区域计算,得到二值化且更新后的核心区域;
S3:根据步骤S2得到的二值化且更新后的核心区域,从中筛选得分较高的核心区域,并对其进行扩张,得到文本区域;
S4:确定步骤S3得到的文本区域的上边界点和下边界点;
S5:对步骤S4中文本区域的上边界点和下边界点分别拟合贝塞尔曲线控制点,计算得到每个文本行的上下两条贝塞尔曲线;
S6:矫正每个文本行的两条贝塞尔曲线围成的任意形状文本为矩形文本,得到整个待检测文本矫正后的图片。


2.根据权利要求1所述的一种任意形状的文本检测和矫正方法,其特征在于,步骤S1中采用标签内缩的实例分割方法,步骤S1包括以下子步骤:
S11:对文本图片样本数据集进行数据标注,标注每个文本行的文本区域,通过第一边框制作每个文本行的文本区域标签;
S12:通过收扩比例α向每个文本行的文本区域内收缩得到每行文本行的文本核心区域,通过第二边框制作核心区域标签,其中α<1;
S13:通过收扩比例α向每个文本行的文本区域外扩张得到最外层边界,通过第二边框和第三边框围成区域制作边界区域标签,其中α<1;
S14:以此训练基于训练标签的神经网络文本检测模型。


3.根据权利要求1所述的一种任意形状的文本检测和矫正方法,其特征在于,步骤S2包括以下子步骤:
S21:对待检测文本的原始图片构建FPN多层卷积网络,通过FPN多层卷积网络,得到多层特征图;
S22:对步骤S21得到的多层特征图进行扩张及特征拼接,得到融合后特征图;
S23:对步骤S22融合后特征图,通过不同的卷积层,分别得到核心区域的分割图和边界区域分割图;其中,核心区域的分割图上任意一点的值为ai,j,其中i表示行,j表示列;边界区域分割图上任意一点的值为bi,j,其中i表示行,j表示列;
S24:对核心区域和边界区域进行计算得到二值化的核心区域,其特征图上任意一点的值为T...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:成都数之联科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1