【技术实现步骤摘要】
一种基于轻量化空洞网络的高效率文档版面分析方法
[0001]本专利技术涉及光学字符识别
,具体为一种基于轻量化空洞网络的高效率文档版面分析方法。
技术介绍
[0002]光学字符识别(OCR)使用光学信息和计算机技术来读取打印或书写在纸上的文字。它将文件的布局转换为计算机可以接受和理解的格式。实施OCR系统的第一步是布局分析。版面分析有几个重要的应用,如文档检索、内容分类、文本识别等。它的目的是自动从文档图像中提取几何结构并将其送入识别系统。这种几何结构可能包含图像、数字、文本和表格。OCR系统的最终结果在很大程度上依赖于布局分析的输出。现有的布局分析方法分为两类,即基于传统手工特征的模型和基于深度学习的模型。
[0003]传统的手工特征方法通常是基于特定的版面结构和手工规则,无法获得较高的准确性和鲁棒性。
[0004]最近,越来越多的基于深度学习的模型被提出,包括分类模型和物体检测模型。分类网络首先被应用于这个领域。物体检测模型在检测自然物体方面很出色,但对于布局分析任务来说,它们并不令人满意。Oliveira和Viana提出了一种基于CNN的快速文档布局分析方法。它使用了ANN,并有两个输入。Li,Yixin在论文DeepLayout:A Semantic Segmentation Approach to Page Layout Analysis和Yang J在论文HanFont:large
‑
scale adaptive Hangul font recognizer usi ...
【技术保护点】
【技术特征摘要】
1.一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述方法包括两个阶段:分割阶段和分类阶段;步骤A:在分割阶段,通过Otsu算法和RLSA将一个文档页面分割成多个内容块;步骤B:在分类阶段,提出一种轻量级扩张网络LD
‑
Net,LD
‑
Net将所有区块分类为图像、表格、文本和公式;每个单独的块及其分类标签在OCR系统的下一个过程中被处理。2.根据权利要求1所述的一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述步骤A具体包括:最初的页面图像通过使用Otsu算法进行二值化处理,其中每个像素被反转;二值化图像和反转图像用5
×
5的掩码进行五次扩张算法处理;RLSA将文件图像的不同部分连接起来,并创建其内容的块;Otsu算法,对于图像L(m*n),T代表前景和背景之间的分割阈值;w0代表前景像素和整个图像的比例;前景像素的数量被定义为N0;w0用公式(1)计算得到;w0=N0/(m*n)
ꢀꢀꢀ
(1)w1代表背景像素和整个图像的比例;N1代表背景像素的数量;w1用公式(2)计算;w0和w1的总和如公式(3)所示;w1=N1/(m*n)
ꢀꢀꢀ
(2)w0+w1=1
ꢀꢀꢀ
(3)前景的平均灰度被定义为u0;u1代表了背景的平均灰度;图像的总平均灰度在公式(4)中被定义为μ;类之间的方差在公式(5)中被定义为g;u=w0*u0+w1*u1ꢀꢀꢀ
(4)g=w0*(u0‑
u)2+w1*(u1‑
u)2ꢀꢀꢀ
(5)将公式(4)代入公式(5)可以得到公式(6);g=w0*w1*(u0‑
u1)2ꢀꢀꢀ
(6)用公式(7)使类之间的方差g最大化,通过使用traversal算法得到;得到T后,图像用T进行二值化处理,并通过RLSA进行反演;T=max(g)
ꢀꢀꢀ
(7)。3.根据权利要求2所述的一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述RLSA被用来检测长的垂直和水平白线;它获得了代表不同内容块的白色和黑色区域;RLSA主要是将相邻的黑色区域联系在一起;如果两个黑色区域彼此接近,那么这两个区域就会被这个算法链接起来;如果被链接的区域也靠近另一个区块,那么这个算法将再次将它们合并;RLSA只有在所有区块都离得足够远时才会结束;在RLSA之后,检测出二值化图像中最大的连接分量,并将其定义为一个内容块。4.根据权利要求1所述的一种基于轻量化空洞网络的高效率文档版面分析方法,其特征在于:所述步骤B具体包括:所提出的LD
‑
Net用深度可分离卷积、剩余块结构和扩张卷积来构建卷积层,并在特定层建立残差连接...
【专利技术属性】
技术研发人员:闵卫东,赵浩宇,崔士淼,查铖,邹怡,
申请(专利权)人:南昌大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。