基于深度学习的页眉页脚检测方法及系统技术方案

技术编号：36046720 阅读：15 留言：0更新日期：2022-12-21 10:55

本发明专利技术属于文本检测技术领域，具体涉及基于深度学习的页眉页脚检测方法及系统。方法包括S1，对卷积神经网络模型进行预训练，获得训练后优化的卷积神经网络模型；S2，输入需要检测的文本图片，并对所述文本图片进行预处理；S3，将预处理后的文本图片输入训练后优化的卷积神经网络模型中，输出页眉页脚位置信息以及角度信息。本发明专利技术具有能够准确、高效、稳定地解析页眉页脚元素位置信息，通过此检测信息可用于版面分析还原，页面信息提取优化的特点。页面信息提取优化的特点。页面信息提取优化的特点。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的页眉页脚检测方法及系统

[0001]本专利技术属于文本检测
，具体涉及基于深度学习的页眉页脚检测方法及系统。

技术介绍

[0002]以深度学习为主流的自动特征在应用到文档版面分析上时，能够极大的提高识别的精度，使得面向不同样式页眉页脚时，特征表达方面得到了较好的解决。目前，以卷积神经网络(CNN, Convolutional Neural Network)为主导的特征表达方式也开始在页眉页脚检测上进行展开。
[0003]由于深度卷积特征具有更好的细节信息，并且可以处理任意大小的图像输入，目前的主流方法是提取深度卷积特征，并通过加权全局求和汇合得到图像的表示向量。其中，权重体现了不同位置特征的重要性，可以有空间方向权重和通道方向权重两种形式。
[0004]基于纹理分析的方法，基于纹理分析的方式是通过像素及其周围空间领域的灰度分布。将文档认为是存在纹理的图像，根据不同区域纹理的差别从而实现分类。虽然这种方式实现比较简单，但是该方法分类准确性不高。
[0005]基于特征识别的方法:对于版面分割出来的不同区域做特征提取，对提取结果根据一些策略来进行分类，从而实现区域的判别。如果不同区域特征差异比较明显，那么可以采取一个简单策略判断，但是当某几个区域特征差异不大时，区域的判断也具有一定难度，往往会使得判别结果出现问题。因此该种方法的准确性在区域特征接近时也不是很高。
[0006]目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的...

【技术保护点】

【技术特征摘要】
1.基于深度学习的页眉页脚检测方法，其特征在于，包括如下步骤；S1，对卷积神经网络模型进行预训练，获得训练后优化的卷积神经网络模型；S2，输入需要检测的文本图片，并对所述文本图片进行预处理；S3，将预处理后的文本图片输入训练后优化的卷积神经网络模型中，输出页眉页脚位置信息以及角度信息。2.根据权利要求1所述的基于深度学习的页眉页脚检测方法，其特征在于，步骤S1包括如下步骤：S11，对已标注的数据集进行数据增强；所述数据增强包括对图像进行裁剪、模糊、缩放，调整颜色、亮度以及加入各种噪声；S12，对数据增强后的数据集进行特征提取；S13，对提取后的特征进行上下文信息融合；所述上下文信息融合指对卷积神经网络模型内部从底至上各个层，对同一尺度图片不同维度的特征表达结构，在单一图片视图下生成多维度特征表达；S14，通过步骤S13生成的多维度特征表达，预测页眉页脚区域和页眉页脚的角度。3.根据权利要求1所述的基于深度学习的页眉页脚检测方法，其特征在于，步骤S2中所述预处理包括对文本图片进行亮度调节、对比度调节、光照均匀度调节、透视变形和残缺遮挡。4.根据权利要求1所述的基于深度学习的页眉页脚检测方法，其特征在于，步骤S3包括如下步骤：S31，将预处理后的文本图片输入训练后优化的卷积神经网络模型中，输出页眉页脚的掩膜图像信息以及角度信息；S32，对获得的掩膜图像信息，进行膨胀处理；S33，对膨胀处理后的掩膜图像信息，用轮廓算法得到最外围轮廓；S34，根据获得的最外围轮廓后，获取最小外接矩形框；S35，根据步骤S31中获得的角度信息对最小外接矩形框进行微调；S36，根据微调后最小外接矩形框的位置对应回原文本图片，获得页眉页脚位置信息。5.基于深度学习的页...

【专利技术属性】
技术研发人员：周神特，张军燕，高晨，
申请(专利权)人：杭州实在智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人