基于深度学习的单点生成多边形的场景文本表征方法技术

技术编号：40560294 阅读：11 留言：0更新日期：2024-03-05 19:22

本发明专利技术公开了一种基于深度学习的单点生成多边形的场景文本表征方法，包括以下步骤：1.将场景文字图像输入点检测器获取文本中心点。2.引入锚点生成模块，利用文本识别置信度获取以文本中心点为中心的最优的锚点。3.引入多边形生成模块，利用文本识别损失从最优锚点获取粗略的文本边界点。4.引入多边形校正模块，利用识别注意力图在水平方向上精细地校正边界点，获得进一步贴近文本的多边形框。本方法提出了一个简单而有效的模型，利用多粒度识别信息将点演化为多边形，并且提出的模型只需要单点注释和合成识别数据，没有带来任何额外的标注成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能和计算机视觉领域，更具体地，涉及一种基于深度学习的单点生成多边形的场景文本表征方法。

技术介绍

1、文字承载着人们思想、知识和文化的传承，是人类交流的重要媒介。在日常的社交、学术研究、商业活动等方方面面，文字都充当着信息传递和共享的桥梁。对于计算机视觉领域而言，从自然场景中准确地提取和理解文本信息是一项长期存在的、值得深刻思考的具有挑战性的任务。

2、近年来，随着深度学习技术的飞速发展，文本形状表示方法在处理各种文本形式方面取得了显著的进展。从最初针对水平和多方向文本的处理，到如今能够适应各种复杂形状的文本，这一演进为计算机系统更好地理解和处理自然场景中的文本提供了强大支持。

3、然而，传统的多边形标注方式却在提供详细文本位置信息的同时，带来了昂贵的标注成本，限制了大规模数据的获取。这一问题对于模型的泛化能力和实际应用的适用性构成了挑战。与此同时，单点标注方法虽然在标注成本上更为经济，但在一些应用场景下却无法满足对文本位置信息的高要求，尤其是在需要进行复杂文本操作的任务中。

技术实现思路

1、针对上述问题，本专利技术提供了一种基于深度学习的单点生成多边形的场景文本表征方法，挖掘此前没有得到应有重视的场景文本图像中单点生成多边形这一困难任务。

2、为实现上述目的，本专利技术提供了一种基于深度学习的单点生成多边形的场景文本表征方法，该方法包括以下步骤：

3、步骤一：给定一个图像，使用一个点检测器来定位一个文本的中心点。

4、步骤二：引入一个锚点生成模块，生成以文本中心点为中心的自适应的多个锚点，并基于粗粒度的识别信息(识别置信度)选择最优的一个锚点。

5、步骤三：引入一个多边形生成模块，利用中等粒度识别信息(识别损失)引导thinplate spline(tps，薄板样条插值)变换，将被选中锚点上下边界的20个初始控制点变换为文本的上下边界点。

6、步骤四：引入了多边形校正模块，利用细粒度识别信息(注意力图)在水平方向上去除文本区域之外的多余点，获得进一步贴近文本的边界点。

7、进一步改进在于：所述步骤二中的锚点生成模块由两个子网络组成，具体为锚点预设网络和锚点筛选网络；所述锚点预设网络为一个图像裁剪器，根据预设锚点的大小对图像进行裁剪；锚点筛选网络为一个文本识别器，选取文本识别置信度最高的锚点作为最优锚点。

8、进一步改进在于：所述锚点预设网络由21个锚点预设器组成，其中包含4个超长锚点预设器，6个长锚点预设器，5个一般锚点预设器和6个短锚点预设器，每个锚点的大小根据图片尺寸自适应设定，具体如公式(1)所示：

9、

10、其中，(wsl,hst),(wl,hl),(wn,hn),(ws,hs)分别是超长、长、正常和短的默认锚点。i,j,k,q是比例因子集，其中q＝1,2,3,4，i＝1,2,...,6，j＝1,2,4,6,8,10和k＝1,2,3,6,10；锚点预设网络可以自由的添加或删除锚点来更好的适应不同的场景文本数据。

11、进一步改进在于：所述锚点筛选网络由一个文本识别器组成，该文本识别器在合成数据集下进行训练，训练完成后冻结参数，引入到锚点筛选网络中，以不同预设锚点作为输入，逐个进行锚点中包含文本的识别，并选取文本识别置信度最高的锚点为最优锚点。

12、进一步改进在于：所述步骤三中的多边形生成模块由控制点生成网络，可学习的tps变换网络和文本识别损失监督网络组成。

13、进一步改进在于：所述控制点生成网络包含多个卷积层加正则化层以及激活层，其后接一个全连接层，将维度映射到(n,2)，其中n为控制点的数量。将最优锚框送入控制点生成网络，初始化时，控制点分布在最优锚框的上下边界，上和下边界分别等间距分布10个控制点。最优锚框经过卷积层提取高维特征之后，接入全连接层，最终输出控制点坐标，优化后分布于贴近文本的上下两侧，同时作为后续输入和文本的粗略边界点。

14、进一步改进在于：所述tps变换网络包含变换矩阵计算过程和网格采样过程。将场景文本图像和控制点生成网络得到的控制点一起输入tps变换网络，首先对输入进行验证，确保控制点的维度和坐标数目满足要求。然后，将控制点矩阵与填充矩阵的拼接，生成扩展后的输入矩阵，利用预先计算好的tps变换逆核矩阵，将目标坐标表示与扩展后的输入矩阵相乘，得到源坐标。将源坐标变形成一个4维张量，然后进行归一化操作以适应后续的图像采样。最最，对输入图像进行采样，生成经过tps变换的输出图像，并返回输出图像和源坐标。

15、进一步改进在于：所述tps变换逆核矩阵由以下步骤进行计算。首先初始化一个全零矩阵，大小为(n+3)*(n+3)，其中n是控制点的数量。接着计算目标点和控制点之间的关系，具体如公式(2)所示：

16、

17、u(r)＝r2ln r (2)

18、将计算结果复制到核矩阵的左上角。然后，将值为1的列和行添加到核矩阵的倒数第三列和行，将目标点复制到核矩阵的倒数第二和倒数第一列。最终，通过计算核矩阵的逆矩阵，得到用于tps变换的逆核矩阵。

19、进一步改进在于：所述步骤四中的多边形校正模块由单步注意力获取网络，注意力二值化网络和边界点裁剪网络组成。

20、进一步改进在于：所述单步注意力获取网络是一个编码器解码器结构。

21、进一步改进在于：所述编码器首先使用一堆卷积层从输入图像中提取特征图。将特征图沿其行轴进行分割，将特征图转换为特征序列。设特征图的形状分别为h×w×d，h,w,d分别为其高度、宽度和深度，在拆分之后，特征图被转换为一系列w向量，每个向量都有h×d维。在特征序列上使用多层双向lstm网络。多层双向blstm网络双向分析特征序列，捕获两个方向的长期依赖关系，它输出相同长度的新特征序列，表示为h＝[h1,...,hw]，作为编码器的输出。

22、进一步改进在于：所述解码器基于注意力序列到序列模型。注意力序列到序列模型是一个单向循环网络，它迭代地处理t步，产生一个长度为t的符号序列，表示为(y1,...,yt)。在步骤t，注意力序列到序列模型根据编码器输出、内部状态和最后一步预测的符号来预测字符或序列结束符号。在这一步中，通过注意力机制来获取注意力权重向量，将权重作为系数，将编码器的输出h列线性组合成一个向量，具体如公式(3)所示：

23、

24、gt被视为解码器循环单元的输入，用于产生一个输出向量和一个新的状态向量，最终预测当前步骤符号。

25、进一步改进在于：所述注意力二值化网络以单步注意力获取网络中获取的单步注意力权重为输入，使用一个阈值τ来变换注意力图，将注意力权重1分配给注意力权重超过指定阈值τ的位置，将注意力权重0分配给其余的位置。边界点裁剪网络去除注意力权重为0位置的边界点，由剩下的边界点构成最终的文本多边形框。

26、有益本文档来自技高网...

【技术保护点】

1.一种基于深度学习的单点生成多边形的场景文本表征方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述步骤二中的锚点生成模块由两个子网络组成，具体为锚点预设网络和锚点筛选网络；所述锚点预设网络为一个图像裁剪器，根据预设锚点的大小对图像进行裁剪；锚点筛选网络为一个文本识别器，选取文本识别置信度最高的锚点作为最优锚点。

3.如权利要求2所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述锚点预设网络由21个锚点预设器组成，其中包含4个超长锚点预设器，6个长锚点预设器，5个一般锚点预设器和6个短锚点预设器，每个锚点的大小根据图片尺寸自适应设定，具体如公式(1)所示：

4.如权利要求1所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述步骤三中的多边形生成模块由三个子网络组成，具体为控制点生成网络，TPS变换网络和文本识别网络。

5.如权利要求4所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述控制点生成网络包含多个卷

6.如权利要求4所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述TPS变换网络包含变换矩阵计算过程和网格采样过程；将场景文本图像和控制点生成网络得到的控制点一起输入TPS变换网络，首先对输入进行验证，确保控制点的维度和坐标数目满足要求；然后，将控制点矩阵与填充矩阵的拼接，生成扩展后的输入矩阵，利用预先计算好的TPS变换逆核矩阵，将目标坐标表示与扩展后的输入矩阵相乘，得到源坐标；将源坐标变形成一个4维张量，然后进行归一化操作以适应后续的图像采样；最最，对输入图像进行采样，生成经过TPS变换的输出图像，并返回输出图像和源坐标。

7.如权利要求4所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述文本识别网络使用合成数据集进行训练，无需额外进行数据标注，使用时以TPS变换网络的输出图像为输入，计算相应的文本识别损失并反向传播，通过TPS变换网络后用于监督控制点的生成，优化最终的产生结果。

8.如权利要求1所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述步骤四中的多边形校正模块由三个子网络组成，具体为单步注意力获取网络，注意力二值化网络和边界点裁剪网络。

9.如权利要求8所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：单步注意力获取网络是一个编码器解码器结构；

10.如权利要求8所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：注意力二值化网络以单步注意力获取网络中获取的单步注意力权重为输入，使用一个阈值τ来变换注意力图，将注意力权重1分配给注意力权重超过指定阈值τ的位置，将注意力权重0分配给其余的位置；

...

【技术特征摘要】

1.一种基于深度学习的单点生成多边形的场景文本表征方法，其特征在于，包括如下步骤：

4.如权利要求1所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述步骤三中的多边形生成模块由三个子网络组成，具体为控制点生成网络，tps变换网络和文本识别网络。

5.如权利要求4所述的基于深度学习的单点生成多边形的场景文本表征方法，其特征在于：所述控制点生成网络包含多个卷积层加正则化层以及激活层，其后接一个全连接层，将维度映射到(n,2)，其中n为控制点的数量；将最优锚框送入控制点生成网络，初始化时，控制点分布在最优锚框的上下边界，上和下边界分别等间距分布10个控制点；最优锚框经过卷积层提取高维特征之后，接入全连接层，最终输出控制点坐标，优化后分布于贴近文本的上下两侧，同时作为后续输入和文本的粗略边界点。

6.如权利要求4所述的基于深度学习的单点生成多边形的场景文...

【专利技术属性】
技术研发人员：刘禹良，邓菱儿，黄明鑫，金连文，白翔，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人