【技术实现步骤摘要】
基于结构属性的乌金体藏文古籍字符切分方法及系统
本专利技术涉及民族语言信息化处理
,特别是涉及一种基于结构属性的乌金体藏文古籍字符切分方法及系统。
技术介绍
民族语言信息化处理是铸牢中华民族共同体意识的重要体现。历史久远且存量丰富的藏文古籍文档是藏文化的重要载体,对研究藏族历史、政治、经济、文化、医药等方面有重要的参考价值。由于藏文古籍文档保存年代久远,纸张材质和墨迹已经出现不同程度的退化,甚至出现难修复的破损。因此,对珍贵的藏文古籍文档数字化保护,进而对其开发和利用,让古籍文字“活”起来,成为藏文古籍文档研究领域的一项重要任务。藏文古籍文档研究主要集中在二值化、版面分析、文本行切分、字符切分、字符识别以及数据集建设等方面。目前,研究者们利用传统方法或深度学习方法在文档预处理、版面分析、文本行切分、字符切分、数据集建设以及字符识别等方面对藏文古籍文档进行了相关研究,但该领域的研究还处于起步阶段。其中,字符切分是藏文古籍文档研究中的难点内容,对其研究可以推动藏文古籍文档研究进展。目前字符切分方法主要有基于投影、连通域分析、字符特征信息等切分方法。基于投影、连通域分析的方法简单,但并不适用于藏文古籍字符之间普遍存在的笔画交叠、交叉、粘连等复杂情况,字符切分正确率低;基于字符特征信息的字符切分方法主要通过字符的外轮廓、角点、端点等特征信息实现字符切分,但在字符切分实现过程中会产生很多无用的特征信息,需要利用一定的知识规则对特征信息进行筛选、组合等操作,容易导致字符过切分。乌金体藏文古籍字符有其 ...
【技术保护点】
1.一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,包括:/n获取乌金体藏文文本行;/n对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块;/n确定每个所述字符区块的宽度;/n当所述字符区块满足第一要求时,采用连通域分析算法对满足所述第一要求的字符区块进行字符切分;所述第一要求为所述字符区块的宽度小于第一宽度;/n当所述字符区块满足第二要求时,对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分;所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度;/n当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分;所述第三要求为所述字符区块的宽度大于等于所述第二宽度。/n
【技术特征摘要】
1.一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,包括:
获取乌金体藏文文本行;
对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块;
确定每个所述字符区块的宽度;
当所述字符区块满足第一要求时,采用连通域分析算法对满足所述第一要求的字符区块进行字符切分;所述第一要求为所述字符区块的宽度小于第一宽度;
当所述字符区块满足第二要求时,对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分;所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度;
当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分;所述第三要求为所述字符区块的宽度大于等于所述第二宽度。
2.根据权利要求1所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块,具体包括:
对所述乌金体藏文文本行进行垂直投影以形成垂直投影图;
利用所述垂直投影图中的空隙将所述乌金体藏文文本行切分成宽度不一的块状,进而得到字符区块。
3.根据权利要求1所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分,具体包括:
确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部;
确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;
基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置,采用多方向、多路径粘连切分算法,对所述基线上方内部的各粘连笔画进行切分;
基于基线上方笔画类型及其几何特征表,确定切分后笔画的笔画类型;
确定所述基线下方部内的断裂笔画;
根据所述断裂笔画以及所述切分后笔画的笔画类型,采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分。
4.根据权利要求3所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部,具体包括:
当满足所述第三要求的字符区块存在音节点时,采用基于音节点位置信息的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置;
当满足所述第三要求的字符区块不存在音节点,则采用结合水平投影与直线检测的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置;
根据所述局部基线位置,对满足所述第三要求的字符区块进行水平切分,以获取基线上方部和基线下方部。
5.根据权利要求3所述的一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,所述确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置,具体包括:
确定基线上方粘连类型表;所述基线上方粘连类型表包括粘连笔画和粘连类型实例;
根据所述基线上方粘连类型表确定粘连模板库;所述粘连模板库包括多种粘连模板类型;
基于所述粘连模板库和改进的误差值模板匹配算法,对所述基线上方部内的各笔画进行处理,以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;所述改进的误差值模板匹配算法包括第一部分和第二部分,所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸,第二部分为误差值模板匹配算法。
6.一种基于结构属性的乌金体藏文古籍字符切分系统,其特征在于,包括:<...
【专利技术属性】
技术研发人员:王维兰,张策,林强,李巧巧,
申请(专利权)人:西北民族大学,
类型:发明
国别省市:甘肃;62
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。