基于深度学习的页眉页脚检测方法及系统技术方案

技术编号:36046720 阅读:15 留言:0更新日期:2022-12-21 10:55
本发明专利技术属于文本检测技术领域,具体涉及基于深度学习的页眉页脚检测方法及系统。方法包括S1,对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;S2,输入需要检测的文本图片,并对所述文本图片进行预处理;S3,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。本发明专利技术具有能够准确、高效、稳定地解析页眉页脚元素位置信息,通过此检测信息可用于版面分析还原,页面信息提取优化的特点。页面信息提取优化的特点。页面信息提取优化的特点。

【技术实现步骤摘要】
基于深度学习的页眉页脚检测方法及系统


[0001]本专利技术属于文本检测
,具体涉及基于深度学习的页眉页脚检测方法及系统。

技术介绍

[0002]以深度学习为主流的自动特征在应用到文档版面分析上时,能够极大的提高识别的精度,使得面向不同样式页眉页脚时,特征表达方面得到了较好的解决。目前,以卷积神经网络(CNN, Convolutional Neural Network)为主导的特征表达方式也开始在页眉页脚检测上进行展开。
[0003]由于深度卷积特征具有更好的细节信息,并且可以处理任意大小的图像输入,目前的主流方法是提取深度卷积特征,并通过加权全局求和汇合得到图像的表示向量。其中,权重体现了不同位置特征的重要性,可以有空间方向权重和通道方向权重两种形式。
[0004]基于纹理分析的方法,基于纹理分析的方式是通过像素及其周围空间领域的灰度分布。将文档认为是存在纹理的图像,根据不同区域纹理的差别从而实现分类。虽然这种方式实现比较简单,但是该方法分类准确性不高。
[0005]基于特征识别的方法:对于版面分割出来的不同区域做特征提取,对提取结果根据一些策略来进行分类,从而实现区域的判别。如果不同区域特征差异比较明显,那么可以采取一个简单策略判断,但是当某几个区域特征差异不大时,区域的判断也具有一定难度,往往会使得判别结果出现问题。因此该种方法的准确性在区域特征接近时也不是很高。
[0006]目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。
[0007]图像分割(Segmentation)指的是将数字图像细分为多个图像子区域(像素的集合)(也被称作超像素)的过程。图像分割的目的是简化或改变图像的表示形式,使得图像更容易理解和分析。图像分割通常用于定位图像中的物体和边界(线,曲线等)。更精确的,图像分割是对图像中的每个像素加标签的一个过程,这一过程使得具有相同标签的像素具有某种共同视觉特性。
[0008]图像分割的结果是图像上子区域的集合(这些子区域的全体覆盖了整个图像),或是从图像中提取的轮廓线的集合(例如边缘检测)。一个子区域中的每个像素在某种特性的度量下或是由计算得出的特性都是相似的,例如颜色、亮度、纹理。邻接区域在某种特性的度量下有很大的不同。
[0009]然而,现有的页眉页脚检测相关技术存在以下缺点:1.传统的页眉页脚检测技术效果不稳定:目前基于规则做的页眉页脚检测效果不稳定,在实际情况中,版面元素类内形式较多,基于规则的方式只能覆盖一部分情况。页关联的判别方式是在文本页关联中通过检测前后页的关系进行判别,对于页眉页脚区域存在的页码或者章节转化为特殊字符代替,该类方法虽然对页眉页脚的样式变化适应性强,但在相邻页眉页脚存在差异或者为单页文
档时,检测效果较差。
[0010]在带有页眉页脚的文档中,页眉页脚均位于整个版面的边缘。在版面分析中,页眉页脚区域分别是版面边缘的独立区域,位置上不会与正文区域平行或等高。在横排文档中,版面左(或右)边缘的竖排页眉很容易与主体部分区分。
[0011]2.无法对扫描件、图片进行检测识别:专利号为CN201910587311.5的文献描述了一种完整识别PDF文件页眉页脚的技术,该方法通过解析PDF,得到PDF原始存储数据,根据每一页进行拆分。根据PDF页面内存储数据的顺序来识别页眉页脚;具体特征:在没有页眉页脚的情况下,PDF文档的数据是从上往下,从左往右开始逐个存储的,但是当有页眉页脚的情况下,PDF文档是先存储页眉再存储页脚,然后是正文数据部分。根据文档数据顺序以及页面最底端行数据的位置来获取页眉页脚。根据文本数据的距离底端的距离判断,另外对于纯图片格式的PDF文件,根据特征识别获取页眉页脚。包括以下步骤:查找页面头部和尾部的页眉页脚特征,根据多页的特征情况进行分析,对于多种页眉页脚形式进行分类。
[0012]该方法缺点如下:1. 只适用于PDF文件;2.基于图片PDF都是正向、没有大角度倾斜的假设;3.简单的特征识别无法保证检测效果的稳定性。
[0013]3.检测不准、检测不全:专利号为CN202111250579.3的文献描述了一种基于霍夫变换直线检测去除页眉页脚的方法,通过基于相位一致性方法提取合同类文本图像边缘信息,并通过霍夫变换直线检测页眉页脚处的横线,用背景色填充页眉页脚处区域,以此抹除页眉页脚,提高后续文本信息的提取精度,适应多样性板式合同类文本图像的识别需求,提高识别效率。
[0014]该方法缺点如下:采用霍夫变换检测页眉页脚横线位置,1.页眉页脚形式多种多样,不一定包含横线; 2.正文部分有表格线会对判断横线位置有干扰。
[0015]4.无法适应多种样式页眉页脚专利号为CN202111005197.4的文献描述了版面分析方法及装置、计算机可读介质、电子设备,用于对所述目标图像进行版面分析以获取第一目标检测结果;其中,第一目标检测结果包括若干个最小外接矩形框,以及对应的标记信息;以及对所述目标图像进行轮廓检测,以获取第二文本轮廓检测结果;该方法将版面检测与轮廓检测结合获取版面分析结果。
[0016]该技术虽然有应用深度学习技术或者分割技术来做版面分析,但是大多是分析段落、表格、图片等大块区域,并没有针对页眉页脚做定制优化,而页眉页脚在版面分析中存在形式多样,大小不一、存在旋转等问题,因此需要针对页眉页脚进行特殊处理。
[0017]基于上述问题,设计一种能够准确、高效、稳定地解析页眉页脚元素位置信息,通过此检测信息可用于版面分析还原,页面信息提取优化的基于深度学习的页眉页脚检测方法及系统,就显得十分重要。

技术实现思路

[0018]本专利技术是为了克服现有技术中,传统页眉页脚元素检测方法存在算法不稳定,页眉检测不准、检测不全以及页面信息提取干扰的问题,提供了一种能够准确、高效、稳定地
解析页眉页脚元素位置信息,通过此检测信息可用于版面分析还原,页面信息提取优化的基于深度学习的页眉页脚检测方法及系统。
[0019]为了达到上述专利技术目的,本专利技术采用以下技术方案:基于深度学习的页眉页脚检测方法,包括如下步骤;S1,对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;S2,输入需要检测的文本图片,并对所述文本图片进行预处理;S3,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。
[0020]作为优选,步骤S1包括如下步骤:S11,对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;S12,对数据增强后的数据集进行特征提取;S13,对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;S14,通过步骤S13生成的多维度特征表达,预测页眉页脚区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的页眉页脚检测方法,其特征在于,包括如下步骤;S1,对卷积神经网络模型进行预训练,获得训练后优化的卷积神经网络模型;S2,输入需要检测的文本图片,并对所述文本图片进行预处理;S3,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚位置信息以及角度信息。2.根据权利要求1所述的基于深度学习的页眉页脚检测方法,其特征在于,步骤S1包括如下步骤:S11,对已标注的数据集进行数据增强;所述数据增强包括对图像进行裁剪、模糊、缩放,调整颜色、亮度以及加入各种噪声;S12,对数据增强后的数据集进行特征提取;S13,对提取后的特征进行上下文信息融合;所述上下文信息融合指对卷积神经网络模型内部从底至上各个层,对同一尺度图片不同维度的特征表达结构,在单一图片视图下生成多维度特征表达;S14,通过步骤S13生成的多维度特征表达,预测页眉页脚区域和页眉页脚的角度。3.根据权利要求1所述的基于深度学习的页眉页脚检测方法,其特征在于,步骤S2中所述预处理包括对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。4.根据权利要求1所述的基于深度学习的页眉页脚检测方法,其特征在于,步骤S3包括如下步骤:S31,将预处理后的文本图片输入训练后优化的卷积神经网络模型中,输出页眉页脚的掩膜图像信息以及角度信息;S32,对获得的掩膜图像信息,进行膨胀处理;S33,对膨胀处理后的掩膜图像信息,用轮廓算法得到最外围轮廓;S34,根据获得的最外围轮廓后,获取最小外接矩形框;S35,根据步骤S31中获得的角度信息对最小外接矩形框进行微调;S36,根据微调后最小外接矩形框的位置对应回原文本图片,获得页眉页脚位置信息。5.基于深度学习的页...

【专利技术属性】
技术研发人员:周神特张军燕高晨
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1