【技术实现步骤摘要】
一种能量最小化藏文古籍文档行分割方法及系统
[0001]本专利技术涉及图像处理领域,特别是涉及一种能量最小化藏文古籍文档行分割方法及系统。
技术介绍
[0002]藏文文档数量繁多,浩如烟海,有手抄本、铅印本、木刻本以及壁画等多种形式,其中木刻本是通过木刻后印刷在纸上,这类古籍文档具有很高的研究价值,需要利用现代信息技术进行数字化保护。然而,由于藏文古籍文档存在笔迹脱落、纸张破损、污点等情况,在进行藏文古籍文档版面分析、行切分、字切分、识别等内容的研究时遇到诸多困难。
[0003]在对藏文古籍文档图像进行二值化处理后,需要对藏文的行进行切分,以满足下一步字切分的需要。由于藏文木刻本印刷是人为的篆刻,之后用特定的油墨在藏纸上印刷,整个过程存在人为因素较多,和目前藏文印刷体不同。采用投影或外接矩形的切割方法无法实现行切分,相邻的两行之间存在粘连的情况,这对行分割工作带来很大的困难。
[0004]在现有的技术中,专利一种藏文古籍文档的行切分方法及系统(专利号:201711206538.8)中公开了基于一种轮廓跟踪的行 ...
【技术保护点】
【技术特征摘要】
1.一种能量最小化藏文古籍文档行分割方法及系统,其特征在于,所述方法包括:获取藏文古籍文档二值化图像,其中黑色标记的是文字区域,白色区域是文档的背景区域;在所述的文字区域内,利用Randon变换进行倾斜矫正,使倾斜的水平文本行能够得到矫正;基于所述矫正后的图像,对文档图像进行水平投影,并对投影结果进行平滑,根据峰值确定行的数量和文本行的核心区域位置;对孤立的上元音、断裂的笔画进行归属划分,减少对切割路径的干扰;设计梯度能量、距离核心区域能量、距离文字区域能量、穿越文字区域能量,再对其进行加权计算,得到能量图;利用线裁剪技术,在能量图中进行藏文行分割,使藏文上下行能够分离;根据所述的孤立上元音、断裂的笔画归属,最终得到文本行的切分结果。2.根据权利要求1所述的方法,其特征在于,所述的藏文古籍二值化图像是对原始藏文古籍图像进行...
【专利技术属性】
技术研发人员:刘华明,毕学慧,王维兰,王秀友,王诗兵,王浩,
申请(专利权)人:阜阳师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。