当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于轻量化空洞网络的高效率文档版面分析方法技术

技术编号:37139574 阅读:31 留言:0更新日期:2023-04-06 21:43
本发明专利技术提供了一种基于轻量化空洞网络的高效率文档版面分析方法,包括两个阶段:分割阶段和分类阶段;步骤A:在分割阶段,通过Otsu算法和RLSA将一个文档页面分割成多个内容块;步骤B:在分类阶段,提出一种轻量级扩张网络LD

【技术实现步骤摘要】
一种基于轻量化空洞网络的高效率文档版面分析方法


[0001]本专利技术涉及光学字符识别
,具体为一种基于轻量化空洞网络的高效率文档版面分析方法。

技术介绍

[0002]光学字符识别(OCR)使用光学信息和计算机技术来读取打印或书写在纸上的文字。它将文件的布局转换为计算机可以接受和理解的格式。实施OCR系统的第一步是布局分析。版面分析有几个重要的应用,如文档检索、内容分类、文本识别等。它的目的是自动从文档图像中提取几何结构并将其送入识别系统。这种几何结构可能包含图像、数字、文本和表格。OCR系统的最终结果在很大程度上依赖于布局分析的输出。现有的布局分析方法分为两类,即基于传统手工特征的模型和基于深度学习的模型。
[0003]传统的手工特征方法通常是基于特定的版面结构和手工规则,无法获得较高的准确性和鲁棒性。
[0004]最近,越来越多的基于深度学习的模型被提出,包括分类模型和物体检测模型。分类网络首先被应用于这个领域。物体检测模型在检测自然物体方面很出色,但对于布局分析任务来说,它们并不令人满意。Oliveira和Viana提出了一种基于CNN的快速文档布局分析方法。它使用了ANN,并有两个输入。Li,Yixin在论文DeepLayout:A Semantic Segmentation Approach to Page Layout Analysis和Yang J在论文HanFont:large

scale adaptive Hangul font recognizer using CNN and font clustering中采用了语义分割的方法,将每个像素分类为它们的语义,并使用ANN和RNN根据它们的字符和视觉特征来检测文档元素。随着物体检测方法的发展,研究人员试图使用R

CNN方法来解决这个问题。Qin,Xiaoran在论文A Faste R

CNN Based Method for Comic Characters Face Detection,Y.Niu在论文A Hybrid R

BILSTM

C Neural Network Based Text Steganalysis,B.Moysset在论文Are 2d

lstm really dead for offline text recognition和R.De在论文Document Image Binarization Using Dual Discriminator Generative Adversarial Networks使用LSTM和GAN的物体检测方法来处理文档图像。他们还在复杂的数据集上评估了他们的方法。此外,Nguyen在论文Comic MTL:optimized multi

task learning for comic book image analysis和N.V.Nguyen在论文Sheet Music Statistical Layout Analysis中使用布局分析来处理特殊领域,如漫画书和乐谱。此外,Nayef,Nibal在论文Text zone classification using unsupervised feature learning中提出了一种依靠无监督特征学习的方法。Dai

Ton在论文An adaptive over

split and merge algorithm for page segmentation中使用了一种自适应的过度拆分和合并算法来同时减少错误的类型。
[0005]综上所述,基于深度学习的方法可以获得准确的结果,但它们通常会占用太多的内存。当用手机等低内存设备时,这些方法将无法发挥作用。因此,一种内存效率高的布局分析方法是必要的。

技术实现思路

[0006]为了满足低硬件内存的要求,本专利技术的目的在于提供一种基于轻量化空洞网络的高效率文档版面分析方法,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于轻量化空洞网络的高效率文档版面分析方法,所述方法包括两个阶段:分割阶段和分类阶段;
[0008]步骤A:在分割阶段,通过Otsu算法和RLSA将一个文档页面分割成多个内容块;
[0009]步骤B:在分类阶段,提出一种轻量级扩张网络LD

Net,LD

Net将所有区块分类为图像、表格、文本和公式;每个单独的块及其分类标签在OCR系统的下一个过程中被处理。
[0010]进一步的,所述步骤A具体包括:
[0011]最初的页面图像通过使用0tsu算法进行二值化处理,其中每个像素被反转;二值化图像和反转图像用5
×
5的掩码进行五次扩张算法处理;RLSA将文件图像的不同部分连接起来,并创建其内容的块;Otsu算法,对于图像L(m*n),T代表前景和背景之间的分割阈值;w0代表前景像素和整个图像的比例;前景像素的数量被定义为N0;w0用公式(1)计算得到;
[0012]w0=N0/(m*n)
ꢀꢀ
(1)
[0013]w1代表背景像素和整个图像的比例;N1代表背景像素的数量;w1用公式(2)计算;w0和w1的总和如公式(3)所示;
[0014]w1=N1/(m*n)
ꢀꢀ
(2)
[0015]w0+w1=1
ꢀꢀ
(3)
[0016]前景的平均灰度被定义为u0;u1代表了背景的平均灰度;
[0017]图像的总平均灰度在公式(4)中被定义为μ;类之间的方差在公式(5)中被定义为g;
[0018]u=W0*u0+w1*u1ꢀꢀꢀꢀ
(4)
[0019]g=w0*(u0‑
u)2+w1*(u1‑
u)2ꢀꢀꢀꢀ
(5)
[0020]将公式(4)代入公式(5)可以得到公式(6);
[0021]g=w0*w1*(u0‑
u1)2ꢀꢀꢀꢀ
(6)
[0022]用公式(7)使类之间的方差g最大化,通过使用traversal算法得到;得到T后,图像用T进行二值化处理,并通过RLSA进行反演;
[0023]T=max(g)
ꢀꢀ
(7)。
[0024]进一步的,所述RLSA被用来检测长的垂直和水平白线;它获得了代表不同内容块的白色和黑色区域;RLSA主要是将相邻的黑色区域联系在一起;如果两个黑色区域彼此接近,那么这两个区域就会被这个算法链接起来;如果被链接的区域也靠近另一个区块,那么这个算法将再次将它们合并;RLSA只有在所有区块都离得足够远时才会结束;在RLSA之后,检测出二值化图像中最大的连接分量,并将其定义为一个内容块。
[0025]进一步的,所述步骤B具体包括:所提出的L本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述方法包括两个阶段:分割阶段和分类阶段;步骤A:在分割阶段,通过Otsu算法和RLSA将一个文档页面分割成多个内容块;步骤B:在分类阶段,提出一种轻量级扩张网络LD

Net,LD

Net将所有区块分类为图像、表格、文本和公式;每个单独的块及其分类标签在OCR系统的下一个过程中被处理。2.根据权利要求1所述的一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述步骤A具体包括:最初的页面图像通过使用Otsu算法进行二值化处理,其中每个像素被反转;二值化图像和反转图像用5
×
5的掩码进行五次扩张算法处理;RLSA将文件图像的不同部分连接起来,并创建其内容的块;Otsu算法,对于图像L(m*n),T代表前景和背景之间的分割阈值;w0代表前景像素和整个图像的比例;前景像素的数量被定义为N0;w0用公式(1)计算得到;w0=N0/(m*n)
ꢀꢀꢀ
(1)w1代表背景像素和整个图像的比例;N1代表背景像素的数量;w1用公式(2)计算;w0和w1的总和如公式(3)所示;w1=N1/(m*n)
ꢀꢀꢀ
(2)w0+w1=1
ꢀꢀꢀ
(3)前景的平均灰度被定义为u0;u1代表了背景的平均灰度;图像的总平均灰度在公式(4)中被定义为μ;类之间的方差在公式(5)中被定义为g;u=w0*u0+w1*u1ꢀꢀꢀ
(4)g=w0*(u0‑
u)2+w1*(u1‑
u)2ꢀꢀꢀ
(5)将公式(4)代入公式(5)可以得到公式(6);g=w0*w1*(u0‑
u1)2ꢀꢀꢀ
(6)用公式(7)使类之间的方差g最大化,通过使用traversal算法得到;得到T后,图像用T进行二值化处理,并通过RLSA进行反演;T=max(g)
ꢀꢀꢀ
(7)。3.根据权利要求2所述的一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述RLSA被用来检测长的垂直和水平白线;它获得了代表不同内容块的白色和黑色区域;RLSA主要是将相邻的黑色区域联系在一起;如果两个黑色区域彼此接近,那么这两个区域就会被这个算法链接起来;如果被链接的区域也靠近另一个区块,那么这个算法将再次将它们合并;RLSA只有在所有区块都离得足够远时才会结束;在RLSA之后,检测出二值化图像中最大的连接分量,并将其定义为一个内容块。4.根据权利要求1所述的一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述步骤B具体包括:所提出的LD

Net用深度可分离卷积、剩余块结构和扩张卷积来构建卷积层,并在特定层建立残差连接...

【专利技术属性】
技术研发人员:闵卫东赵浩宇崔士淼查铖邹怡
申请(专利权)人:南昌大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1