一种基于CTPN的多分类文本检测算法制造技术

技术编号：41271722 阅读：4 留言：0更新日期：2024-05-11 09:25

本发明专利技术公开了一种基于CTPN的多分类文本检测算法，包括以下：一、CTPN多分类模型结构设计；对于我们设计的多分类CTPN网络我们依旧保持原有的VGG16来提取特征，再使用一个卷积层来增加感受野得到最后提取到的特征F；我们使用kernel_size为(1，k)的1维卷积层来模拟BLSTM；二、CTPN多分类模型loss设计；对于我们设计的多分类的CTPN网络一共有四个预测输出，对于第一个预测和第四个预测我们使用smoothL1loss进行回归。本发明专利技术基于CTPN的基础上可以检测不同类型的文本，可以进行多分类检测；引入了1D卷积模拟BLSTM的效果，在保证准确率的情况下，提升了模型并行化，加快了模型运行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本检测、ocr、ctpn领域，特别涉及一种基于ctpn的多分类文本检测算法。

技术介绍

1、ocr是指对文本资料进行扫描后对图像文件进行分析处理，获取文字及版面信息的过程，ocr的处理过程如图1所示；

2、其中文本检测作为ocr中较为重要的一环，文本检测的精度极大影响最终ocr的精度，目前的文本检测算法分为三种，第一，基于anchor的文本检测，其中包括：textbox系列，ctpn等，第二种，基于分割的文本检测算法，其中包括：psenet，pannet，dbnet等。基于端到端的文本检测算法，其中包括，mask textspotter，fots，abcnet等。ctpn算法虽然是2016年提出，但是由于其在水平文本的检测精度极其优异，而且整体的效率也比较高，所以在许多的工业项目中也有比较广泛的应用。原始的ctpn如图2所示；

3、ctpn通过vgg16提取图片特征，然后通过一个rpn层conv5生成得到小文本框，输入blstm在宽度方向进行前后文联系，最后使用一个fc层汇聚特征，在fc层输出三个预测层，第一个，用来预测高度方向上的中心点偏移和高度比值量，第二个，用来预测小文本框为文本或非文本，第三个用来预测水平方向上的中心点坐标的偏移量。最后通过这三个预测值，得到预测的小文本框，最终通过合并算法合成最终的文本框。

技术实现思路

1、本专利技术要解决的技术问题是克服现有技术的缺陷，在ctpn的基础上，构建出了一种基于ctpn的多分类的文本检测

2、本专利技术提供了如下的技术方案：

3、本专利技术提供一种基于ctpn的多分类文本检测算法，包括以下：

4、一、ctpn多分类模型结构设计

5、对于我们设计的多分类ctpn网络我们依旧保持原有的vgg16来提取特征，再使用一个卷积层来增加感受野得到最后提取到的特征f；我们使用kernel_size为(1，k)的1维卷积层来模拟blstm，具体的替换操作如下所示：

6、(1)使用高度方向为1，宽度方向为k(k＝3)的1维卷积对f；

7、(2)进行1维卷积得到特征

8、(3)使用高度方向为1，宽度方向为k(k＝5)的1维卷积对f；

9、(4)进行1维卷积得到特征

10、(5)使用高度方向为1，宽度方向为k(k＝3)的1维卷积对f；

11、(6)进行1维反向卷积得到特征

12、(7)使用高度方向为1，宽度方向为k(k＝5)的1维卷积对f；

13、(8)进行1维反向卷积得到特征

14、(9)将得到两个融合的正向和反向的融合特征

15、(10)将进行通道的融合进行concat得到特征fm；

16、通过上述的方式，我们模拟了一个blstm作用，起到了关联前后文的作用，之所以使用卷积，是因为对于卷积可以并行，极大地加大了模型的运行效率；

17、增加了卷积对特征进行降维，得到最终用来预测的特征fpre，对这个特征添加了四个预测头，第2个和第4个预测头和ctpn是一样的，我们增加了一个预测分类的预测头(第3个)，对于第一个我们增加了一个小文本框的角度的预测用来应对倾斜文本的检测；对于角度预测我们使用回归角度的sin和cos值来实现而不是直接回归角度，这样在模型的训练中不会造成较大的梯度波动；

18、二、ctpn多分类模型loss设计

19、对于我们设计的多分类的ctpn网络一共有四个预测输出，对于第一个预测和第四个预测我们使用如下的smooth l1 loss进行回归：

20、

21、对于第一个预测的角度部分需要使用将角度换算到0-2π的区间，再转换成sin和cos值；

22、第二个和第三个预测，我们使用分类的loss如下：

23、

24、根据四个输出我们得到了loss1，loss2，loss3，loss4，所以整体法的loss公式是：

25、ltotal＝α1*loss1+α2*loss2+α3*loss3+α4*loss4

26、其中，α1+α2+α3+α4＝1。

27、与现有技术相比，本专利技术的有益效果如下：

28、1、基于ctpn的基础上可以检测不同类型的文本，可以进行多分类检测；

29、2、引入了1d卷积模拟blstm的效果，在保证准确率的情况下，提升了模型并行化，加快了模型运行效率。

本文档来自技高网...

【技术保护点】

1.一种基于CTPN的多分类文本检测算法，其特征在于，包括以下：

【技术特征摘要】

1.一种基于ctpn的多分类文本...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人