基于结构属性的乌金体藏文古籍字符切分方法及系统技术方案

技术编号:27977212 阅读:34 留言:0更新日期:2021-04-06 14:11
本发明专利技术公开了一种基于结构属性的乌金体藏文古籍字符切分方法及系统,涉及民族语言信息化处理技术领域,包括对获取的乌金体藏文文本行进行粗切分处理,得到多个字符区块;确定每个字符区块的宽度;采用连通域分析算法对满足第一要求的字符区块进行字符切分;对满足第二要求的字符区块内的各笔画进行归属处理以完成字符切分;对满足第三要求的字符区块进行多字符切分;第一要求为字符区块的宽度小于第一宽度;第二要求为字符区块的宽度大于等于第一宽度且字符区块的宽度小于第二宽度;第三要求为字符区块的宽度大于等于第二宽度。本发明专利技术能够对乌金体藏文古籍字符进行精确切分。

【技术实现步骤摘要】
基于结构属性的乌金体藏文古籍字符切分方法及系统
本专利技术涉及民族语言信息化处理
,特别是涉及一种基于结构属性的乌金体藏文古籍字符切分方法及系统。
技术介绍
民族语言信息化处理是铸牢中华民族共同体意识的重要体现。历史久远且存量丰富的藏文古籍文档是藏文化的重要载体,对研究藏族历史、政治、经济、文化、医药等方面有重要的参考价值。由于藏文古籍文档保存年代久远,纸张材质和墨迹已经出现不同程度的退化,甚至出现难修复的破损。因此,对珍贵的藏文古籍文档数字化保护,进而对其开发和利用,让古籍文字“活”起来,成为藏文古籍文档研究领域的一项重要任务。藏文古籍文档研究主要集中在二值化、版面分析、文本行切分、字符切分、字符识别以及数据集建设等方面。目前,研究者们利用传统方法或深度学习方法在文档预处理、版面分析、文本行切分、字符切分、数据集建设以及字符识别等方面对藏文古籍文档进行了相关研究,但该领域的研究还处于起步阶段。其中,字符切分是藏文古籍文档研究中的难点内容,对其研究可以推动藏文古籍文档研究进展。目前字符切分方法主要有基于投影、连通域分析、字符特征信息等切分方法。基于投影、连通域分析的方法简单,但并不适用于藏文古籍字符之间普遍存在的笔画交叠、交叉、粘连等复杂情况,字符切分正确率低;基于字符特征信息的字符切分方法主要通过字符的外轮廓、角点、端点等特征信息实现字符切分,但在字符切分实现过程中会产生很多无用的特征信息,需要利用一定的知识规则对特征信息进行筛选、组合等操作,容易导致字符过切分。乌金体藏文古籍字符有其特有的结构属性,以上字符切分方法不能完全适用于乌金体藏文古籍字符切分。
技术实现思路
本专利技术的目的是提供一种基于结构属性的乌金体藏文古籍字符切分方法及系统,能够根据乌金体藏文古籍字符的结构属性,对基线上方字符之间存在笔画交叠、交叉、粘连以及基线下方笔画断裂等复杂情况进行精确地字符切分。为实现上述目的,本专利技术提供了如下方案:一种基于结构属性的乌金体藏文古籍字符切分方法,包括:获取乌金体藏文文本行;对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块;确定每个所述字符区块的宽度;当所述字符区块满足第一要求时,采用连通域分析算法对满足所述第一要求的字符区块进行字符切分;所述第一要求为所述字符区块的宽度小于第一宽度;当所述字符区块满足第二要求时,对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分;所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度;当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分;所述第三要求为所述字符区块的宽度大于等于所述第二宽度。可选的,所述对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块,具体包括:对所述乌金体藏文文本行进行垂直投影以形成垂直投影图;利用所述垂直投影图中的空隙将所述乌金体藏文文本行切分成宽度不一的块状,进而得到字符区块。可选的,所述当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分,具体包括:确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部;确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置,采用多方向、多路径粘连切分算法,对所述基线上方内部的各粘连笔画进行切分;基于基线上方笔画类型及其几何特征表,确定切分后笔画的笔画类型;确定所述基线下方部内的断裂笔画;根据所述断裂笔画以及所述切分后笔画的笔画类型,采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分。可选的,所述确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部,具体包括:当满足所述第三要求的字符区块存在音节点时,采用基于音节点位置信息的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置;当满足所述第三要求的字符区块不存在音节点,则采用结合水平投影与直线检测的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置;根据所述局部基线位置,对满足所述第三要求的字符区块进行水平切分,以获取基线上方部和基线下方部。可选的,所述确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置,具体包括:确定基线上方粘连类型表;所述基线上方粘连类型表包括粘连笔画和粘连类型实例;根据所述基线上方粘连类型表确定粘连模板库;所述粘连模板库包括多种粘连模板类型;基于所述粘连模板库和改进的误差值模板匹配算法,对所述基线上方部内的各笔画进行处理,以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;所述改进的误差值模板匹配算法包括第一部分和第二部分,所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸,第二部分为误差值模板匹配算法。一种基于结构属性的乌金体藏文古籍字符切分系统,包括:数据获取模块,用于获取乌金体藏文文本行;字符区块确定模块,用于对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块;宽度计算模块,用于确定每个所述字符区块的宽度;第一切分模块,用于当所述字符区块满足第一要求时,采用连通域分析算法对满足所述第一要求的字符区块进行字符切分;所述第一要求为所述字符区块的宽度小于第一宽度;第二切分模块,用于当所述字符区块满足第二要求时,对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分;所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度;第三切分模块,用于当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分;所述第三要求为所述字符区块的宽度大于等于所述第二宽度。可选的,所述字符区块确定模块,具体包括:垂直投影图形成单元,用于对所述乌金体藏文文本行进行垂直投影以形成垂直投影图;字符区块确定单元,用于利用所述垂直投影图中的空隙将所述乌金体藏文文本行切分成宽度不一的块状,进而得到字符区块。可选的,所述第三切分模块,具体包括:字符区块划分单元,用于确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部;笔画信息确定单元,用于确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;笔画切分单元,用于基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连本文档来自技高网
...

【技术保护点】
1.一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,包括:/n获取乌金体藏文文本行;/n对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块;/n确定每个所述字符区块的宽度;/n当所述字符区块满足第一要求时,采用连通域分析算法对满足所述第一要求的字符区块进行字符切分;所述第一要求为所述字符区块的宽度小于第一宽度;/n当所述字符区块满足第二要求时,对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分;所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度;/n当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分;所述第三要求为所述字符区块的宽度大于等于所述第二宽度。/n

【技术特征摘要】
1.一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,包括:
获取乌金体藏文文本行;
对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块;
确定每个所述字符区块的宽度;
当所述字符区块满足第一要求时,采用连通域分析算法对满足所述第一要求的字符区块进行字符切分;所述第一要求为所述字符区块的宽度小于第一宽度;
当所述字符区块满足第二要求时,对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分;所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度;
当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分;所述第三要求为所述字符区块的宽度大于等于所述第二宽度。


2.根据权利要求1所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块,具体包括:
对所述乌金体藏文文本行进行垂直投影以形成垂直投影图;
利用所述垂直投影图中的空隙将所述乌金体藏文文本行切分成宽度不一的块状,进而得到字符区块。


3.根据权利要求1所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分,具体包括:
确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部;
确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;
基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置,采用多方向、多路径粘连切分算法,对所述基线上方内部的各粘连笔画进行切分;
基于基线上方笔画类型及其几何特征表,确定切分后笔画的笔画类型;
确定所述基线下方部内的断裂笔画;
根据所述断裂笔画以及所述切分后笔画的笔画类型,采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分。


4.根据权利要求3所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部,具体包括:
当满足所述第三要求的字符区块存在音节点时,采用基于音节点位置信息的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置;
当满足所述第三要求的字符区块不存在音节点,则采用结合水平投影与直线检测的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置;
根据所述局部基线位置,对满足所述第三要求的字符区块进行水平切分,以获取基线上方部和基线下方部。


5.根据权利要求3所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置,具体包括:
确定基线上方粘连类型表;所述基线上方粘连类型表包括粘连笔画和粘连类型实例;
根据所述基线上方粘连类型表确定粘连模板库;所述粘连模板库包括多种粘连模板类型;
基于所述粘连模板库和改进的误差值模板匹配算法,对所述基线上方部内的各笔画进行处理,以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;所述改进的误差值模板匹配算法包括第一部分和第二部分,所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸,第二部分为误差值模板匹配算法。


6.一种基于结构属性的乌金体藏文古籍字符切分系统,其特征在于,包括:<...

【专利技术属性】
技术研发人员:王维兰张策林强李巧巧
申请(专利权)人:西北民族大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1