一种复杂版面的多尺度文本检测方法技术

技术编号：40488199 阅读：9 留言：0更新日期：2024-02-26 19:19

本发明专利技术公开了一种复杂版面的多尺度文本检测方法。首先，构建复杂版面图像的多尺度文本检测模型；接着，利用复杂版面屏幕图像数据集训练复杂版面图像的多尺度文本检测模型，获得训练好的多尺度文本检测模型；最后将待检测的复杂版面图像输入到训练好的多尺度文本检测模型中，获得对应的文本检测框图。本发明专利技术通过设计多尺度文本检测模型的神经网络结构提升模型对不同大小文本的检测精度，从而使后续文本识别精度也得到提升。相比于传统的文本检测模型，该方法降低了文本漏检的概率，提升了文本检测识别的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及了一种目标检测方法，具体涉及了一种复杂版面的多尺度文本检测方法。

技术介绍

1、复杂版面是指显示区域内文本的内容和样式复杂多变。不同于传统的单一显示界面，复杂版面在文本样式上的复杂性通常体现在不同尺寸的文本显示、段落与表格混合、高度语义化的区域划分，在内容上的复杂性通常体现在文字、数字和符号的混合显示。而多尺度文本是指文本的显示尺寸或相对大小的差别较大，一般来说，通常把目标宽高与整张图像的宽高比例低于0.1的目标称为小目标。

2、在生产实践中，许多仪器仪表都会有复杂的文本显示界面，且由于不同仪器功能界面多种多样，其文本的大小和内容也不尽相同，为文本的检测带来了一定的挑战。传统的人工读取与记录参数费时费力，需要消耗较大的人力成本和时间成本，且因为参数量大和人眼疲劳的原因容易造成数据读取错误的情况，为获取仪器的参数带来较大的困扰。

3、随着神经网络深入工业领域，对于复杂版面文本的读取出现了使用神经网络模型自动检测与识别屏幕文本的方案。虽然传统的文本检测方案对于文本的提取与识别有一定的效果，但是对于复杂版面屏幕上不同大小的文本，传统的文本检测方案表现不佳。其中，主要原因在于传统的文本检测方案所用的模型适用于文字大小接近的图像，但对于不同尺度文字的泛化能力较弱，只能检测文本尺度在一定区域内波动的图像数据。对于超过尺度阈值的文本，尤其是小目标文本的检测能力较弱，经常出现漏检、错检的情况，使得复杂版面屏幕中文本的自动检测性能出现较大的波动，进而影响后续文本识别的精度。

4、传统的文本检测或目

技术实现思路

1、为了解决
技术介绍
中存在的问题和需求，本专利技术提出了一种复杂版面的多尺度文本检测方法。本专利技术在传统目标检测模型的基础上，通过设计多尺度文本检测模型的网络结构，使其更多地注意到不同尺度文本中的小目标文本，进而提升网络对多尺度文本目标的检测精度。

2、本专利技术的技术方案如下：

3、一、一种复杂版面的多尺度文本检测方法

4、1)构建复杂版面图像的多尺度文本检测模型；

5、2)利用复杂版面屏幕图像数据集训练复杂版面图像的多尺度文本检测模型，获得训练好的多尺度文本检测模型；

6、3)将待检测的复杂版面图像输入到训练好的多尺度文本检测模型中，获得对应的文本检测框图。

7、所述1)中，复杂版面图像的文本检测模型包括主干网络和全连接层，主干网络和全连接层相连，复杂版面图像的文本检测模型的输入作为主干网络的输入，全连接层的输出作为复杂版面图像的文本检测模型的输出。

8、所述主干网络包括dbl模块和5个残差层，复杂版面图像的文本检测模型的输入作为dbl模块的输入，dbl模块与5个残差层依次相连组成，全连接层包括4个卷积层、3个上采样与拼接层、7个注意力机制模块，第五残差层经第一卷积层后与第一注意力机制模块相连，第一注意力机制模块输出第一特征图，第四残差层经第一上采样与拼接层后和第二注意力机制模块相连，第二注意力机制模块经第二卷积层后与第三注意力机制模块相连，第三注意力机制模块输出第二特征图，第三残差层和第二注意力机制模块均与第二上采样与拼接层相连，第二上采样与拼接层和第四注意力机制模块相连，第四注意力机制模块经第三卷积层后与第五注意力机制模块相连，第五注意力机制模块输出第三特征图，第二残差层和第四注意力机制模块均与第三上采样与拼接层相连，第三上采样与拼接层和第六注意力机制模块相连，第六注意力机制模块经第四卷积层后与第七注意力机制模块相连，第七注意力机制模块输出第四特征图，第一特征图、第二特征图、第三特征图和第四特征图进行非极大值抑制算法匹配后，输出获得文本检测框图。

9、所述7个注意力机制模块的结构相同，均包括通道注意力机制模块和空间注意力机制模块。

10、二、一种计算机设备

11、计算机设备包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述方法的步骤。

12、三、一种计算机可读存储介质

13、计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法的步骤。

14、本专利技术的有益效果为：

15、本专利技术改进了传统目标检测模型的网络结构，在模型中增加了注意力机制和不同的网络输出通道，提高了模型对复杂版面屏幕中不同大小文本的检测精度，缓解了复杂版面屏幕文本检测中漏检、错检的问题。

本文档来自技高网...

【技术保护点】

1.一种复杂版面的多尺度文本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种复杂版面的多尺度文本检测方法，其特征在于，所述1)中，复杂版面图像的文本检测模型包括主干网络和全连接层，主干网络和全连接层相连，复杂版面图像的文本检测模型的输入作为主干网络的输入，全连接层的输出作为复杂版面图像的文本检测模型的输出。

3.根据权利要求2所述的一种复杂版面的多尺度文本检测方法，其特征在于，所述主干网络包括DBL模块和5个残差层，复杂版面图像的文本检测模型的输入作为DBL模块的输入，DBL模块与5个残差层依次相连组成，全连接层包括4个卷积层、3个上采样与拼接层、7个注意力机制模块，第五残差层经第一卷积层后与第一注意力机制模块相连，第一注意力机制模块输出第一特征图，第四残差层经第一上采样与拼接层后和第二注意力机制模块相连，第二注意力机制模块经第二卷积层后与第三注意力机制模块相连，第三注意力机制模块输出第二特征图，第三残差层和第二注意力机制模块均与第二上采样与拼接层相连，第二上采样与拼接层和第四注意力机制模块相连，第四注意力机制模块经第三卷积层后与第五注意

4.根据权利要求3所述的一种复杂版面的多尺度文本检测方法，其特征在于，所述7个注意力机制模块的结构相同，均包括通道注意力机制模块和空间注意力机制模块。

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种复杂版面的多尺度文本检测方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种复杂版面的多尺度文本检测方法，其特征在于，所述主干网络包括dbl模块和5个残差层，复杂版面图像的文本检测模型的输入作为dbl模块的输入，dbl模块与5个残差层依次相连组成，全连接层包括4个卷积层、3个上采样与拼接层、7个注意力机制模块，第五残差层经第一卷积层后与第一注意力机制模块相连，第一注意力机制模块输出第一特征图，第四残差层经第一上采样与拼接层后和第二注意力机制模块相连，第二注意力机制模块经第二卷积层后与第三注意力机制模块相连，第三注意力机制模块输出第二特征图，第三残差层和第二注意力机制模块均与第二上采样与拼接层相连...

【专利技术属性】
技术研发人员：余凯，王强，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人