当前位置: 首页 > 专利查询>清华大学专利>正文

印刷蒙古文文本切分方法技术

技术编号:2942163 阅读:302 留言:0更新日期:2012-04-11 18:40
印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明专利技术特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明专利技术在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。

【技术实现步骤摘要】

,属于光学字母识别(OCR)中的字母切分领域。
技术介绍
蒙古语属阿尔泰语系蒙古语族,是广泛分布在我国内蒙古、新疆、北京、辽宁、黑龙江、吉林、甘肃、青海等省区的蒙古族使用的主要语言。其书面表现形式——传统蒙古文(现行)是以回鹘字母为基础的拼音文字,在形体、写法变化等方面均有独特之处。作为我国的一种主要少数民族文字,蒙古文文本识别在我国有迫切的现实需求和广泛的应用前景。蒙古文文本的行序为从左到右,行内文字从上到下竖排,以词为单位纵向书写,词与词之间由空格加以分隔。每个词由若干字母组成,每个字母又由若干字素组成,有的字素由主体部分和点状的附加部分组成,词中的字素从上到下通过基线连接。图1列举了蒙古文的部分字母和字素。图2反映了蒙古文文本的部分特征。一般的蒙古文文本识别系统如图3所示预处理模块增强输入的文本图像;列切分模块把多列文本区域切分成文字列;词切分模块把一列文字切分成词;基元切分模块把词切分成字母或字素等基本部件;基元识别模块识别切割出来的基元;后处理部分利用词典、语言模型、语言特征等手段,修正识别错误,得到最终文本识别结果。因为蒙古文文本的字母都在基线处连接,所以蒙古文文本的本文档来自技高网...

【技术保护点】
印刷蒙古文文本切分方法,其特征在于:首先在连通体分类的基础上,先选择部分连通体竖直投影把输入文本图像分割成子区域,然后检测多列子区域,归并连通体实现多列子区域的文字列切分;然后把文字列切分成词;随后估计文字列各处的基线位置;最后根据基线位置以及词轮廓寻找字素切点;在由图像采集设备和计算机组成的系统中,该方法依次含有以下步骤:第1步,列切分令I表示输入的文本图像,H是I的高度,W是I的宽度,连通体C的左边界、上边界、右边界、下边界、宽度和高度分别表示为l、t、r 、b、w和h,附加了上下标的C表示特定的连通体,附加了上下标的l、t、r、b、w和h分别表示特定连通体的...

【技术特征摘要】

【专利技术属性】
技术研发人员:丁晓青靳简明彭良瑞王华刘长松方驰
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1