一种能量最小化藏文古籍文档行分割方法及系统技术方案

技术编号:37846598 阅读:20 留言:0更新日期:2023-06-14 22:31
本发明专利技术公开了一种能量最小化藏文古籍文档行分割方法及系统,涉及图像处理领域。通过获取藏文古籍二值化图像,通过以下步骤得到藏文行分割:采用Radon变换进行倾斜矫正;对文档图像进行水平投影,并对投影结果进行平滑,以准确检测行的核心区域位置和文本行的数量;对孤立的上元音、断裂的笔划进行归属划分,减少对接缝剪裁路径的干扰;对梯度能量、距离核心区域能量、距离文字区域能量、穿越文字区域能量进行加权计算,得到能量图;采用接缝剪裁技术,在能量图中的行分割区域切分文本行,再结合孤立元音、断裂笔划归属,最终得到文本行的切分结果。本发明专利技术提供了一种能量最小化藏文古籍文档行分割方法及系统,解决了现有的藏文古籍文档行切分问题。籍文档行切分问题。籍文档行切分问题。

【技术实现步骤摘要】
一种能量最小化藏文古籍文档行分割方法及系统


[0001]本专利技术涉及图像处理领域,特别是涉及一种能量最小化藏文古籍文档行分割方法及系统。

技术介绍

[0002]藏文文档数量繁多,浩如烟海,有手抄本、铅印本、木刻本以及壁画等多种形式,其中木刻本是通过木刻后印刷在纸上,这类古籍文档具有很高的研究价值,需要利用现代信息技术进行数字化保护。然而,由于藏文古籍文档存在笔迹脱落、纸张破损、污点等情况,在进行藏文古籍文档版面分析、行切分、字切分、识别等内容的研究时遇到诸多困难。
[0003]在对藏文古籍文档图像进行二值化处理后,需要对藏文的行进行切分,以满足下一步字切分的需要。由于藏文木刻本印刷是人为的篆刻,之后用特定的油墨在藏纸上印刷,整个过程存在人为因素较多,和目前藏文印刷体不同。采用投影或外接矩形的切割方法无法实现行切分,相邻的两行之间存在粘连的情况,这对行分割工作带来很大的困难。
[0004]在现有的技术中,专利一种藏文古籍文档的行切分方法及系统(专利号:201711206538.8)中公开了基于一种轮廓跟踪的行切分方法,该方法对连本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种能量最小化藏文古籍文档行分割方法及系统,其特征在于,所述方法包括:获取藏文古籍文档二值化图像,其中黑色标记的是文字区域,白色区域是文档的背景区域;在所述的文字区域内,利用Randon变换进行倾斜矫正,使倾斜的水平文本行能够得到矫正;基于所述矫正后的图像,对文档图像进行水平投影,并对投影结果进行平滑,根据峰值确定行的数量和文本行的核心区域位置;对孤立的上元音、断裂的笔画进行归属划分,减少对切割路径的干扰;设计梯度能量、距离核心区域能量、距离文字区域能量、穿越文字区域能量,再对其进行加权计算,得到能量图;利用线裁剪技术,在能量图中进行藏文行分割,使藏文上下行能够分离;根据所述的孤立上元音、断裂的笔画归属,最终得到文本行的切分结果。2.根据权利要求1所述的方法,其特征在于,所述的藏文古籍二值化图像是对原始藏文古籍图像进行...

【专利技术属性】
技术研发人员:刘华明毕学慧王维兰王秀友王诗兵王浩
申请(专利权)人:阜阳师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1