一种基于DBNet的表格紧密文本检测方法技术

技术编号：41267318 阅读：3 留言：0更新日期：2024-05-11 09:23

本发明专利技术公开了一种基于DBNet的表格紧密文本检测方法，本发明专利技术在表格的文本检测问题上，引入了分类图来判断当前像素是否为顶点；通过顶点的判断，来对DBNet的检测出的文本框进行分割，有助于提升DBNet在表格紧密文本检测上的性能；改进了原本的CAB模块，提出了Probability‑CAB模块，结合概率图，得到空间上的注意力。并综合考虑通道上的平均值和最大值，得到通道的注意力，有助于更进一步丰富的提取上下文信息，提升模型准确率；引入分类图的损失函数，与原本的DBNet模型一起进行优化，尽可能的减少了模型训练时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习、文本检测算法领域，特别涉及一种基于dbnet的表格紧密文本检测方法。

技术介绍

1、前ocr技术已被广泛的应用到了我们的日常生活当中，比如身份证信息识别、银行卡卡号识别、营业执照识别以及表格信息识别等。但在有些实际的场景下，由于文本内容太过紧密，会造成不同的文本框内容被检测为一条文本，造成文本长度过长，增加了文本识别的难度。此外，当两个内容相似的文本被检测为一条文本时，较难通过文本识别的内容对两个内容相似的文本进行区分。举例来说，如图1中的(a)所示，对于一张表格中保存了姓名、手机号、身份证号码，需要将表格中每个人的姓名以及对应的手机号和身份证号码识别出来，在对表格中的文本进行检测时，由于手机号和身份证号信息比较接近，目前常用的检测模型比如dbnet、panet等会将手机号和身份证被检测为一条文本框，如图1中的b所示；

2、目前在紧密文本的检测方面，主要有psenet，psenet将每个文本实例分配给多个预测的分割区域，记作s1,s2,…sn，这些分割区域与原始的整个文本实例具有相似的形状，具有相同的中心点，但比例上不同。为了将紧密的文本分割开，psenet在后处理时会从最小的比例开始，确定文本框的个数，随后逐步在更大比例的分割图中来扩展文本框的边界，直到扩展到最大比例的文本框。

3、基于psenet的后处理所花费的时间相对较长，当面临cpu端、移动端的模型部署时，往往在响应时间上难以满足要求。而表格中的文本跟场景文本的不同在于，表格文本检测中，一般不包含弯曲文本，因此在分离紧密文

4、近年来，dbnet算法(real-time scene text detection with differentiablebinarization)已被广泛应用到了ocr场景中。dbnet是一种基于分割的文本检测算法，一般的分割算法都是通过网络预测出概率图，随后通过人为的设定阈值将概率图转换为二值化图，最后通过二值化图来得到最后的文本框。这一方法对人为设定阈值依赖相对较高，因此dbnet提出了可微二值化，通过将二值化的过程变得可微，加入到网络一起进行训练，使得网络预测出的概率图对阈值更加鲁棒。但在表格文本检测问题中，当面对紧密文本时，dbnet依然会难以将其分割开。因此，为解决表格文本检测中紧密文本的分割问题，本专利在dbnet的基础上进行了改进，提升了其在表格文本检测上的性能。

技术实现思路

1、本专利技术要解决的技术问题是克服现有技术的缺陷，提供一种基于dbnet的表格紧密文本检测方法，对dbnet进行了一定的改进，提升了表格文本检测的性能。

2、本专利技术提供了如下的技术方案：

3、本专利技术提供一种基于dbnet的表格紧密文本检测方法，包括以下所示：

4、一、添加分类图分支，目前的dbnet模型，主要通过概率图，在阈值操作后，得到对应的二值化图，在二值化图中得到对应的文本框；当文本紧密的时候，dbnet容易将紧密的文本框检测为一个文本框进行输出，为将紧密的文本框分割开，添加了分类图的检测，来判断当前像素是否为文本框的顶点，文本框的顶点位置的像素点将被分类为顶点，其他位置则被分类为非顶点；当两个紧密文本框被识别为一个文本框时，由于顶点像素的判断，可在顶点处进行再次切断，分割出两个文本框；在dbnet通过二值化图将手机号和身份证号检测为同一个文本框时，由于分类图中顶点像素的预测，可得到黄色的分割线对文本框进行分割，划分出两个文本框；

5、二、在原有的dbnet基础上，添加分割模块对分类图进行预测；分割模块的结构中，对于原本dbnet得到的特征图(是原图大小的1/4)，对其进行两次反卷积操作，得到与原图同样大小的特征图；随后通过probability-cab，来获取丰富的上下文信息，预测出最后的分类图；

6、三、为进一步提高分类图的预测性能，本专利在分割模块中加入了改进的cab模块，命名为probability-cab，来获取丰富的上下文信息；probability-cab相比于原本的cab模块，进行了两点改进：

7、(1)采用概率图替换原本的cab模块中的空间注意力模块；dbnet中的概率图预测了当前像素点是否含有文本的概率，当概率值越高时，代表当前像素含有文本的可能性较高，当概率值越低时，代表当前像素含有文本的可能性较低，因此采用概率图来代表空间注意力模块，不仅没有引入额外的计算开支，也更能代表单个像素的重要性；

8、(2)增加了通道注意力分支来综合考虑通道的重要性，在通过avg pooling和maxpooling分别得到了每个通道的平均值和最大值，随后通过1x1的卷积来充分考虑平均值和最大值在通道注意力中的重要性，最后concat，输入到shared mlp中，得到最后的通道注意力；其中shared mlp是一个mlp(全连接的操作)，由于特征图的通道数为128，因此mlp的输入神经元和输出神经元个数都设置为128，其中中间层的神经元设置为256；

9、四、由于引入了分类图，因此本专利在原有的dbnet损失函数基础上添加了分类的损失函数；其中i表示预测分类图中第i个像素，yi＝1，表示标注label第i个像素是文本框的顶点，yi＝0，表示标注label第i个像素不是文本框的顶点，pi表示预测分类图第i个像素是文本框的概率；

10、

11、与现有技术相比，本专利技术的有益效果如下：

12、1、在表格的文本检测问题上，引入了分类图来判断当前像素是否为顶点。通过顶点的判断，来对dbnet的检测出的文本框进行分割，有助于提升dbnet在表格紧密文本检测上的性能；

13、2、改进了原本的cab模块，提出了probability-cab模块，结合概率图，得到空间上的注意力。并综合考虑通道上的平均值和最大值，得到通道的注意力，有助于更进一步丰富的提取上下文信息，提升模型准确率；

14、3、引入分类图的损失函数，与原本的dbnet模型一起进行优化，尽可能的减少了模型训练时间。

本文档来自技高网...

【技术保护点】

1.一种基于DBNet的表格紧密文本检测方法，其特征在于，包括以下所示：

【技术特征摘要】

1.一种基于dbnet的表格紧密文本...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人