【技术实现步骤摘要】
一种基于Mask R
‑
cnn算法和类型分割的扫描文件版面分析方法
[0001]本专利技术属于深度学习领域,具体涉及一种基于Mask R
‑
cnn算法和类型分割的扫描文件版面分析方法。
技术介绍
[0002]对扫描文件的版面进行分析研究具有重要意义。首先,扫描文件有着便于携带、方便保存、可阅读但不可随意修改等优点,因此扫描文件被广泛使用。其次,扫描文件的电子化可以很好的将资料保存下来,而扫描文件版面分析是构成扫描文件电子化的重要步骤,正确有效的扫描文件版面分析可以很大程度上确保精准度。与此同时,随着图像分类、文本处理等技术的不断涌现,版面分析技术也变得愈加重要,因此如果想要对扫描文件中的文本、插图进行智能化处理,版面分析是解决这一问题必不缺少的步骤。
[0003]版面分析有自顶向下、自底向上和综合型三种。自顶向下从文档图像整体开始,采用相关算法从整体页面中分割出不同的区域,该算法适用于版面较为规范简明的文档图像。自底向上的算法从局部信息开始通过连通域等方式逐步合并成为不同的文档区域,其算法适用于较为复杂的版面分析,但算法效率常常较低,且难以形成统一的合并规则。
[0004]基于上述两种算法的优缺点,综合型算法将自顶向下和自底向上的两种算法相互融合,也是版面分析中最为常用的方法。Yang提出了基于纹理的分析方法,根据文档图像中明显的行间隔和图像表格的线条纹理特征对文档图像进行分析。Tian等人根据连通区域距离特征和连通区域尺寸大小横向纵向排列以及参考行等特征,进行相应 ...
【技术保护点】
【技术特征摘要】
1.一种基于Mask R
‑
cnn算法和类型分割的扫描文件版面分析方法,其特征在于,将扫描的原始彩色图像作为输入,首先对图像中的表格进行识别并分割,分割表格后的图像作为输入,进行插图的识别并分割,然后去除图像中的红章,最后将去除表格、插图和红章后的图像进行标题识别,未识别部分作为文本部分输出,具体包括如下步骤:步骤1、定义载入接口和Mask R
‑
cnn模型,进行模型训练;步骤2、实时获取扫描文件原始彩色图像,并进行预处理;步骤3、基于训练完成的模型进行分类识别,首先基于表格识别模型识别彩色图像中的表格区域,提取表格,输出表格和提取表格后的图像1;步骤4、然后识别图像1中的插图区域,提取插图,输出插图和提取插图后的图像2;步骤5、去除图像2中的红章,输出得到图像3;步骤6、最后识别图像3中的标题并标注,未标注部分为文本,输出标注标题后的图像。2.根据权利要求1所述基于Mask R
‑
cnn算法和类型分割的扫描文件版面分析方法,其特征在于,所述步骤1的具体过程如下:步骤1.1、对于定义载入接口,首先对获取到的历史数据集进行重写操作,对数据集进行打乱排序,划分训练集以及测试集,其次获取图像和mask的映射关系,将mask转换为Tensor,获取到mask掩码的坐标以及标签,用于图像分割;最后,对数据集中的图像进行增强处理,并将原始图像转换为PyTorch张量;步骤1.2、对于定义Mask R
‑
cnn模型,包括获取模型架构以及模型的输入特征数,将输出模型的特征类别和mask类别的参数均修改为2;还包括定义训练和验证数据加载器,使用辅助函数获取Mask R
‑
cnn模型;步骤1.3、对于识别表格、插图、标题以及文本采用不同的数据集,分别训练出识别表格、插图、标题的模型,最后保存训练好的模型参数,此时训练获得三个模型:表格识别模型、插图识别模型、标题识别模型,每一个识别模型均采用Mask R
‑
cnn进行训练得到,并选用残差网络ResNet101作为Mask R
‑
cnn的主干特征提取网络;模型训练中采用Adam优化器进行优化,从而调整模型更新权重和偏差参数θ
t
,θ
t
由公式(1)得到,其中,θ
t
‑1表示上一次迭代得到的偏差参数,α表示默认学习率,m
i
表示梯度均值,v
t
表示梯度平方的指数移动平均数,∈=10
‑8;其中,设置学习速率计划程序每3个epoch将学习速率降低10倍;在模型训练期间对于每一个RoI接口定义一个多任务损失函数L,通过调用优化器不断更新学习速率;训练结束后,保存训练好的模型参数;L由公式(2)得到,L=L
cLs
+L
Box
+L
mask
ꢀꢀꢀꢀ
(2)其中,L
CLS
表示分类损失,L
BOX
表示回归框损失,L
mask
表示新加入的mask损失。3.根据权利要求1所述基于Mask R
‑
cnn算法和类型分割的扫描文件版面分析方法,其特征在于,所述步骤2中,对扫描文件原始彩色图像进行图像增强,并将增强后的图像换为RGB三通道格式。
4.根据权利要求1所述的基于Mask R
‑
cnn算法和类型分割的扫描文件版面分析方法,其特征在于,所述步骤3的具体过程如下:步骤3.1、将预处理后的扫描文件图像输入到一个预训练完成的残差网络ResNet101和FPN中,获得对应的特征图,即将扫描文件图像输入到ResNet101中进行表格提取,ResNet101分为5个阶段,C1
‑
C5为每个阶段对应的输出,此时输出对应该扫描文件中所有可能的表格区域;步骤3.2、对所有可能的表格区域中的每一点设定候选坐标ROI,从而获得多...
【专利技术属性】
技术研发人员:赵卫东,张晓明,李旭健,肖智勇,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。