一种藏文古籍文档图像版面分割、识别方法及系统技术方案

技术编号:30407638 阅读:19 留言:0更新日期:2021-10-20 11:17
本发明专利技术涉及一种藏文古籍文档图像版面分割、识别方法及系统,所述方法包括:构建藏文古籍文档图像版面分割数据集;基于所述藏文古籍文档图像版面分割数据集对深度卷积神经网络进行训练;基于训练好的深度卷积神经网络对藏文古籍图像版面进行分割;对分割后的藏文古籍图像版面中的文本进行识别。本发明专利技术中的上述方法能够实现对藏文古籍文档图像进行精确分割和文字识别。和文字识别。和文字识别。

【技术实现步骤摘要】
一种藏文古籍文档图像版面分割、识别方法及系统


[0001]本专利技术涉及文字识别领域,特别是涉及一种藏文古籍文档图像版面分割、识别方法及系统。

技术介绍

[0002]在过去的几十年中,文档图像版面分析工作在多文种、多字体上展开,国内外的研究者针对印刷或手写的古籍文献提出了许多不同的版面分析方法。传统方法方面有:1)基于纹理的分析、2)游程平滑算法、3)投影轮廓切割算法、4)空白区域分析法、5)连通域分析法、6)Voronoi图分析法。深度学习方法方面,此类方法从图像像素出发利用卷积神经网络(CNN)生成图像的多层特征,利用提取的特征搭建合适的模型结构,并选择相应的损失函数,在大量的监督数据下通过最优化损失函数学习模型中的参数。此外,在版面分析系统研究方面,S.Pletschacher等于2010年发布用于页面分析和页面基本元素格式化的框架,随之发布版面分析系统Aletheia,并在不断扩充支持的语言。Supachai Tangwongsan等构建了一个高效的文档页面布局提取系统。
[0003]对于藏文文档图像版面分析技术,国内外仅有少数研究者对藏文古籍图像版面分析做了一些研究。其中,Ma等人研究出一种应用于藏文历史文档图像分割和识别的框架。提出基于块投影的版面分割方法,将藏文文档图像分割成文本、线条和框架,利用基于图模型的文本行分割方法解决文本与边框之间的粘连问题。Liu等人提出一种基于边界信息的藏文历史文献的版面分析方法,采用中值滤波、高斯平滑、Sobel边缘检测和边缘平滑、去除小区域、获取边界位置等一系列处理,根据边界和区域之间的位置关系,确定各个区域位置,例如文本区域、左注释、右注释等,最后以XML页面信息的格式保存文档图像。Zhang等人提出一种基于连通分量分析和角点检测的历史藏文文档图像文本提取方法,利用关联成分把藏文历史古籍的文档区域划分为三类,将图像等分为网格,利用连通域分类信息和角点密度信息对网格进行滤波,计算垂直和水平网格投影,通过投影分析,可以检测出文本区域的大致位置,通过校正近似文本区域的包围盒,准确地提取文本区域。Duan等人给出一种基于块投影的历史藏文文档图像文本提取方法,将图像平均分块,并根据连通分量的类别和角点密度信息进行滤波,通过块投影分析,找到近似的文本区域,并提取文本区域。以上研究利用传统方法解决了部分藏文古籍文档图像的版面分割问题,取得了良好的效果。但是这种针对特定藏文古籍文档图像版面的传统分割方法,不具备良好的鲁棒性,在遇到其它类型的版面时也不易迁移。
[0004]由于藏文古籍的固有特点,文本和边框、文本和图形之间通常会有粘连的情况发生,版面也较为复杂,页面包括文本块、图像、边框、左右标题等,古籍图像颜色不一致、噪点多,同时藏文古籍中的不同边框线经常会出现弯曲、倾斜、断裂,以及边框线和文字粘连等情况。以上这些特点给实现高性能的藏文古籍图像的版面分割及描述带来了较大挑战。而现有的文档版面分析方法主要有以下缺点:1)大部分是对近现代比较规则的印刷书籍的版面进行分析,其方法不适用于版面较复杂的历史文档;2)已有的历史文档的版面分析方法,
大多是针对某一种语言文字的历史文档特点提出的方法,并不完全适用于藏文古籍。
[0005]本专利技术旨在利用传统方法与深度学习方法相结合的混合策略,解决藏文古籍文档图像的版面分割及识别问题。

技术实现思路

[0006]本专利技术的目的是提供一种藏文古籍文档图像版面分割、识别方法及系统,提高分割精度。
[0007]为实现上述目的,本专利技术提供了如下方案:
[0008]一种藏文古籍文档图像版面分割、识别方法,所述方法包括:
[0009]构建藏文古籍文档图像版面分割数据集;
[0010]基于所述藏文古籍文档图像版面分割数据集对深度卷积神经网络进行训练;
[0011]基于训练好的深度卷积神经网络对藏文古籍图像版面进行分割;
[0012]对分割后的藏文古籍图像版面中的文本进行识别。
[0013]可选地,所述构建藏文古籍文档图像版面分割数据集具体包括:
[0014]获取藏文古籍图像;
[0015]随所述藏文古籍图像进行预处理;
[0016]对预处理后的藏文古籍图像进行数据标记,得到版面元素类型;所述版面元素类型包括:背景、文本、左标题、右标题以及图;
[0017]将所述版面元素类型进行扩充并生成标签,得到藏文古籍文档图像版面分割数据集。
[0018]可选地,所述基于训练好的深度卷积神经网络对藏文古籍图像版面进行分割具体包括:
[0019]对待分割的藏文古籍文档图像进行光照不均处理;
[0020]对光照不均处理后的藏文古籍文档图像进行图像尺寸归一化处理;
[0021]对尺寸归一化后的藏文古籍文档图像进行图像切片;
[0022]对图像切片后的藏文古籍文档图像分别输入至所述训练好的深度卷积神经网络,得到多个预测结果;
[0023]将所述多个预测结果进行合并,得到整张藏文古籍图像的分割结果;
[0024]将所述分割结果恢复为原尺寸。
[0025]可选地,所述对分割后的藏文古籍图像版面中的文本进行识别具体包括:
[0026]对分割后的藏文古籍图像版面中文本的左标题、正文以及右标题进行识别。
[0027]可选地,所述对分割后的藏文古籍图像版面中文本的左标题、正文以及右标题进行识别集体包括:
[0028]构建藏文古籍文本行数据集;所述藏文古籍文本行数据集包括:藏文古籍文本行合成数据集和藏文古籍文本行真实数据集;
[0029]基于所述藏文古籍文本行数据集对CRNN神经网络进行训练;
[0030]基于训练好的CRNN神经网络对藏文古籍图像中的左标题和正文进行识别;
[0031]采用汉文OCR接口对藏文古籍图像中的右标题进行识别。
[0032]可选地,所述构建藏文古籍文本行数据集具体包括:
[0033]构建藏文古籍文本行合成数据集;
[0034]构建藏文古籍文本行真实数据集。
[0035]可选地,构建藏文古籍文本行合成数据集具体包括:
[0036]获取语料;
[0037]对所述语料进行过滤;
[0038]基于过滤后的语料合成文本行;
[0039]基于所述文本行生成标签和字典,得到藏文古籍文本行合成数据集。
[0040]可选地,构建藏文古籍文本行真实数据集具体包括:
[0041]获取并标记完整文本行;
[0042]对所述完整文本行进行粗切分,得到较短的文本图像段;
[0043]对所述文本图像段进行标记;
[0044]基于标记后的文本图像段生成标签和字典,得到藏文古籍文本行真实数据集。
[0045]可选地,基于训练好的CRNN神经网络对藏文古籍图像中的左标题和正文进行识别具体包括:
[0046]分割出藏文古籍文档图像中的左标题及正文;
[0047]对所述左标题和正本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种藏文古籍文档图像版面分割、识别方法,其特征在于,所述方法包括:构建藏文古籍文档图像版面分割数据集;基于所述藏文古籍文档图像版面分割数据集对深度卷积神经网络进行训练;基于训练好的深度卷积神经网络对藏文古籍图像版面进行分割;对分割后的藏文古籍图像版面中的文本进行识别。2.根据权利要求1所述的藏文古籍文档图像版面分割、识别方法,其特征在于,所述构建藏文古籍文档图像版面分割数据集具体包括:获取藏文古籍图像;随所述藏文古籍图像进行预处理;对预处理后的藏文古籍图像进行数据标记,得到版面元素类型;所述版面元素类型包括:背景、文本、左标题、右标题以及图;将所述版面元素类型进行扩充并生成标签,得到藏文古籍文档图像版面分割数据集。3.根据权利要求1所述的藏文古籍文档图像版面分割、识别方法,其特征在于,所述基于训练好的深度卷积神经网络对藏文古籍图像版面进行分割具体包括:对待分割的藏文古籍文档图像进行光照不均处理;对光照不均处理后的藏文古籍文档图像进行图像尺寸归一化处理;对尺寸归一化后的藏文古籍文档图像进行图像切片;对图像切片后的藏文古籍文档图像分别输入至所述训练好的深度卷积神经网络,得到多个预测结果;将所述多个预测结果进行合并,得到整张藏文古籍图像的分割结果;将所述分割结果恢复为原尺寸。4.根据权利要求1所述的藏文古籍文档图像版面分割、识别方法,其特征在于,所述对分割后的藏文古籍图像版面中的文本进行识别具体包括:对分割后的藏文古籍图像版面中文本的左标题、正文以及右标题进行识别。5.根据权利要求4所述的藏文古籍文档图像版面分割、识别方法,其特征在于,所述对分割后的藏文古籍图像版面中文本的左标题、正文以及右标题进行识别集体包括:构建藏文古籍文本行数据集;所述藏文古籍文本行数据集包括:藏文古籍文本行合成数据集和藏文古籍文本行真实数据集;基于所述藏文古籍文本行数据集对CRNN神经网络进行训练;基于训练好的CRNN神经网络对藏文...

【专利技术属性】
技术研发人员:王维兰陈园园王筱娟郝玉胜
申请(专利权)人:西北民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1