结合像素分割和线段锚的文本检测方法、系统及装置制造方法及图纸

技术编号:28421796 阅读:28 留言:0更新日期:2021-05-11 18:29
本发明专利技术涉及文本检测控制技术领域,具体提供结合像素分割和线段锚的文本检测方法、系统及装置,旨在解决在文本检测过程中如何避免密集文本容易粘连和回归长文本的边界不准的技术问题。为此,本发明专利技术的方法包括:通过像素分割获得文本图像的像素点;以每一所述像素点为线段中心垂直设置多根不同长度的线段锚;确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签,并基于所述像素点和所述线段锚训练文本检测模型;应用所述文本检测模型对文本进行检测,获得检测后的文本行。本发明专利技术在文本检测中既能避免文本粘连问题,又能准确回归长文本的边界,具有很强的泛化能力和抗干扰能力,保证文本检测在整个光学字符识别的正确性与准确性。

【技术实现步骤摘要】
结合像素分割和线段锚的文本检测方法、系统及装置
本专利技术涉及文本检测控制
,具体涉及一种结合像素分割和线段锚的文本检测方法、系统及装置。
技术介绍
文本检测是光学字符识别OCR的一项基础任务。文本背景复杂,文本大小和长宽比例变化范围很大,给文本检测任务带来了极大的挑战。近年来,随着深度学习技术的发展,基于深度学习的文本检测方法大量涌现。现有的方法主要分为两类:基于固定矩形锚的直接回归方法和基于像素分割的方法。如图1所示,基于固定矩形锚的直接回归方式学习到的是整个文本行的特征,对于密集文本不容易粘连,但在回归长文本的边界时会有较大的偏差;而基于像素分割的文本检测方法是将文本实例分割出来,然后基于分割的像素点去预测文本框,基于像素分割的方法学习到的是像素的局部特征,在文本特别密集的时候容易粘连。因此,需要提出一种文本检测方案,能够将固定矩形锚和像素分割的文本检测两种方法的优点结合起来,既能避免文本粘连问题,又能准确回归长文本的边界,具有很强的泛化能力和抗干扰能力。
技术实现思路
为了克服上述缺陷,提出了本专利技术本文档来自技高网...

【技术保护点】
1.一种结合像素分割和线段锚的文本检测方法,其特征在于,所述方法包括:/n通过像素分割获得文本图像的像素点;/n以每一所述像素点为线段中心垂直设置多根不同长度的线段锚;/n确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签,并基于所述像素点和所述线段锚训练文本检测模型;/n应用所述文本检测模型对文本进行检测,获得检测后的文本行。/n

【技术特征摘要】
1.一种结合像素分割和线段锚的文本检测方法,其特征在于,所述方法包括:
通过像素分割获得文本图像的像素点;
以每一所述像素点为线段中心垂直设置多根不同长度的线段锚;
确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签,并基于所述像素点和所述线段锚训练文本检测模型;
应用所述文本检测模型对文本进行检测,获得检测后的文本行。


2.根据权利要求1所述的方法,其特征在于,
确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签,具体包括:
在所述文本图像上标注四边形区域的文本标签,对所述文本标签的上下边进行内缩,获得中心区域,该中心区域内的像素点作为文本正样本,其他区域的像素点作为文本负样本;
其中,对所述文本标签的上下边内缩的幅度为所述文本标签的高度的M倍;
根据所述文本标签的四个顶点坐标和所述线段锚的两个端点坐标获得对应标注线段的坐标,并计算所述文本标签的上下边界相对于每根所述线段锚的偏移量以及每根所述线段锚与所述标注线段的交并比,若所述交并比大于第一设定阈值,则判断所述线段锚是文本正样本,否则是文本负样本;
基于所述像素点和所述线段锚训练文本检测模型,具体包括:
将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练。


3.根据权利要求2所述的方法,其特征在于,
在x轴向右为正方向、y轴向下为正方向的坐标轴中,所述文本标签从左上角开始顺时针方向的四个点坐标分别为(x1,y1),(x2,y2),(x3,y3),(x4,y4),所述线段锚x方向的坐标为xa,上下两个端点的坐标分别为ya1和ya2;计算所述标注线段的两个端点的坐标值(xup,yup)和(xdown,ydown)的公式如下:
xup=xdown=xa
yup=(y2-y1)/(x2-x1)×(xa-x1)+y1
ydown=(y4-y3)/(x4-x3)×(xa-x3)+y3
则所述标注线段为两个端点(xup,yup)和(xdown,ydown)的连线;
所述线段锚与所述标注线段的相交长度为:
Li=max(min(ydown,ya2)–max(yup,ya1),0),若Li输出结果大于0,表明所述线段锚与所述标注线段相交;若Li输出结果为0,则表明所述线段锚与所述标注线段未相交;
其中,所述线段锚与所述标注线段的交并比的计算公式为:
IOU=Li/(ydown–yup+ya2–ya1–Li);
所述文本标签的上下边界相对于对应的所述线段锚的偏移量计算公式:
Dup=(yup–ya1)/(ya2–ya1),Ddown=(ydown–ya2)/(ya2–ya1)。


4.根据权利要求2所述的方法,其特征在于,“将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练”,具体包括:
通过加权方式将像素点二分类交叉熵损失函数LS_cls、线段锚二分类交叉熵损失函数LA_cls以及上下边界相对于对应的所述线段锚的偏移量的回归损失函数LA_reg,组合得到文本检测模型的总损失函数:
Ltotal=LS_cls+LA_cls+LA_reg
通过训练使所述文本检测模型收敛,当所述总损失函数Ltotal的输出值降低到近似恒定值时,卷积神经网络模型判断所述文本检测模型已收敛,结束训练模型。


5.根据权利要求2所述的方法,其特征在于,
所述“应用所述文本检测模型对文本进行检测,获得检测后的文本行”,具体包括:
在应用所述文本检测模型时,所述文本检测模型输出每根预测的线段锚是文本的概率,若所述概率大于第二设定阈值,则获取所述预测的线段锚的坐标,并且根据所述文本检测模型提供的所述文本标签的上下边界相对于对应的所述预测的线段锚的偏移量,计算所述预测的线段锚对应的文本线段的两个端点的坐标值,并将相邻的所述文本线段的端点连接起来,得到检测后的文本行;
所述预测的线段锚是文本的输出概率为P,若输出概率P大于所述第二设定阈值,则获取所述预测的线段锚的坐标值,其中,所述预测的线段锚x方向的坐标为xb,上下两个端点的坐标分别为yb1和yb2;所述文本标签的上边界相对于对应的所述预测的线段锚的偏移量为Dup1,下边界相对于对应的所述预测的线段锚的偏移量为Ddown1,则所述预测的线段锚对应的文本线段的两个端点坐标值(xup1,yup1)和(xdown1,ydown1)为:
xup1=xdown1=xb
yup1=(yb2–yb1)×Dup1+yb1
ydown1=(yb2–yb1)×Ddown1+yb2。


6.根据权利要求5所述的方法,其特征在于,“所述文本检测模型输出每根预测的线段锚是文本的概率,若所述概率大于第二设定阈值,则获取所述预测的线段锚的坐标,并且根据所述文本检测模型提供的所述文本标签的上下边界相对于对应的所述预测的线段锚的偏移量,计算所述预测的线段锚对应的文本线段的两个端点的坐标值”,具体包括:
将所述文本图像输入所述文本检测模型,获得1:N的文本图像特征图,根据所述文本图像特征图获取像素点输出概率图矩阵Ps和线段锚输出特征图矩阵A,计算获得注意力机制输出特征图矩阵Fattention:
Fattention=ePs×A
其中,e为自然常数;
将所述注意力机制输出特征图矩阵通过卷积计算,获得线段锚的最终输出特征图,即输出所述文本标签的上下边界相对于对应的所述线段锚的偏移量以及所述线段锚是文本的概率。


7.一种结合像素分割和线段锚的文本检测系统,其特征在于,包括:
像素分割模块,其通过像素分割获得文本图像的像素点;
线段锚设置模块,其以每一所述像素点为线段中心垂直设置多根不同长度的线段锚;
训练模块...

【专利技术属性】
技术研发人员:李源杨曦露
申请(专利权)人:上海云从汇临人工智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1