一种脱机手写体文本的字符切分方法技术

技术编号:18784374 阅读:36 留言:0更新日期:2018-08-29 07:10
本发明专利技术公开了一种脱机手写体文本的字符切分方法,包括字符高度估计、字符的粗略切分和字符的精细切分;所述字符高度估计运用连通域分析法进行字符高度估计,文字高度h作为一个自适应变量,它与文本图像的字符大小直接关联;该脱机手写体文本的行结构分析方法,即在“一种脱机手写体文本识别的字符重心定位方法”和“一种脱机手写体文本识别的行结构分析方法”两个专利的基础上,结合字符重心和行结构实现有效的字符切分以实现由文本图像到单个字符的转换,从而大大降低了粘连字符会导致错误的字符切分,得到错误的识别结果的问题,同时也提高了字符识别系统的识别精度;实用性强,易于推广使用。

【技术实现步骤摘要】
一种脱机手写体文本的字符切分方法
本专利技术涉及倾斜文本行分析
,具体为一种脱机手写体文本的字符切分方法。
技术介绍
随着电子设备的广泛应用,脱机手写稿件转换成电子文件的需求逐渐增强。光学字符识别的工作原理是扫描源文件并执行图像上的字符分析,将其转换成ASCII编码文件,从而便于存储和操作的标准电子文件。字符切分技术作为光学字符识别过程的一部分,文字图像需要切分成单个字符图像而被识别。其中最简单的字符切分技术是利用字符之间较小的空隙来完成文本图像的字符切分。然而,该技术并不适用于粘连字符或离散笔划的单字符的切分处理,会导致多字符被切分成为一个字符或单字符被切分成为多个字符。导致这一字符切分技术退化的原因之一是邻近字符的笔迹发生重叠以至于在他们重叠的位置共享了一部分笔迹像素点。日常生活中有大量待处理的印刷和手写体文档,绝大部分文档的文字字符都是横向工整排布,但是也有很多文档的文字字符呈现非横向非工整排布,任意手写文档和未校验其角度的扫描文档都会导致文字字符行与横向水平线存在一个或大或小的偏差角度。另外,手写文稿中插入了大量补充性和说明性的文字字符,也会使得文档中存在大量零散行片段。因此,这一类的非横向非工整图像文档仍然是现有字符识别系统获得高精度的一个巨大的障碍。粘连字符会导致错误的字符切分,得到错误的识别结果,以至于降低了字符识别系统的识别精度。
技术实现思路
针对现有技术的不足,本专利技术提供了一种脱机手写体文本的字符切分方法,解决了
技术介绍
中提出的困难问题。为实现以上目的,本专利技术通过以下技术方案予以实现:一种脱机手写体文本的字符切分方法,包括字符高度估计、字符的粗略切分和字符的精细切分;所述字符高度估计运用连通域分析法进行字符高度估计,文字高度h作为一个自适应变量,它与文本图像的字符大小直接关联。首先明确相邻像素点概念,即每个像素点含有相邻像素点的数目为八(除边缘位置),它们分别处于该像素点的左、右、上、下、左上、右上、左下和右下八个位置;接着,笔迹像素点的连通域概念,即每个连通域是由若干个笔迹(有效)像素点组成的序列,该连通域的高度是最上方笔迹像素点位置与最下方笔迹像素点位置之差;所述字符的粗略切分基于像素空白区域完成单字符切分、粘连多字符切分以及标记;所述字符的精细切分对于标记粘连多字符的切分需要找到字符与字符之间的真正切分点,这一切分点能准确地将他们切分;为此,粘连多字符大体上分为重叠非粘连、粘连两类;前者是指某一字符与其他字符存在垂直映射上的粘连,但是该字符笔迹像素点仍然可以通过连通域分析法得到其所有的连通域而与其他字符笔迹像素点不发生连通关系;后者是指某一字符与其他字符存在连通关系,换言之,该字符的笔迹像素点与其他字符的笔迹像素点存在重合,重合点的数量等于或大于1。进一步,所述字符高度估计具体步骤如下:(1)以文本图像的左上角和右下角为极限位置,随机选择k个位置点,即{(x1,y1),(x2,y2),…,(xk,yk)},其中k≥10;(2)获取每一个随机位置点的最邻近笔迹像素点,当该位置点的像素值为1,则最邻近像素点为自身。对第i个随机位置点(xi,yi)而言,最邻近笔迹像素点(xi,yi)应满足如下条件:其中,DF表示一种距离度量函数,如欧式距离、曼哈顿距离和切比雪夫距离;表示文本图像第xj行第yj列的像素值,其值为1,表示该位置存在笔迹像素;运用连通域来计算k个最邻近笔迹像素点所在的笔迹连通域高度{h1,h2,…,hk}。实验结果表明,k取值范围为[20,30],字符高度处于k个通域的平均高度与最大高度之间且偏向于后者。为此,将k个连通域的高度值按小到大排序,选择第个高度值作为字符初始高度估计值。进一步,所述字符的粗略切分具体包括如下步骤:S1、获取待处理的行结构以及对应的字符重心C={c1,c2,…,ci,…,cn'},其中n'表示字符重心的总数量,i表示字符重心的下标,ci表示第i个字符中心的纵向值和横向值。S2、笔迹起始像素点,行结构的起始点是由其第一个字符重心投影至行结构得到,并非该行结构的起始像素点,需要对其进行前向延伸H/2并结合连通域以确定笔迹起始像素点(x,y)且px,y=1。S3、像素空白区域,从笔迹起始像素点开始,以行结构为中心、宽度为SW,高度为SH向行结构的另一端做切片分析,若以(x',y')为左上角的切片区域不存在任何笔迹像素点,则该切片被认为是像素空白区域。这一区域对应了单字符与其他字符的间隔区域、多字符与其他字符的间隔区域和其他区域三种情况之一。情况一,笔迹起始像素点到该切片的距离近似于字符高度且存在字符重心处于该区域的相对中心位置,即{ci∈[x:x+SH,y:y'-1],y'-y≈H|ci∈C},进入字符区域设定以完成单字符切分,其标记为“1”,设置该切片后续非空白区域的切片为新的笔迹起始像素点;情况三,笔迹起始像素点到该切片的距离远大于字符高度且多个字符重心处于该区域中,进入字符区域设定以完成多字符切分并标记以参与字符精细切分阶段,其标记为“2”,设置该切片后续非空白区域的切片为新的笔迹起始像素点,即{ci∈[x:x+SH,y:y'-1],y'-y>>H|ci∈C};这一区域包含的字符笔迹对应了标点符号或字符偏旁,进入字符区域设定以完成这一区域字符笔迹的切分,其标记为“3”,设置该切片后续非空白区域的切片为新的笔迹起始像素点。S4、字符区域设定,字符区域是指容纳该字符笔迹像素点的最小矩形,其参数包括矩形的左上角坐标(x,y)、高度SH'和宽度y'-y。其中矩形的左上角坐标可以由笔迹起始像素点、宽度和高度三者计算得到,宽度可以由笔迹起始像素点和切分点确定,因此字符区域设定仅需计算字符所属矩形的高度。字符所属矩形的高度可以结合字符高度值和字符笔迹连通域以确定。SH'=max(x″)-min(x″)s.t.{p(x″,y″)=1|((x″,y″)∈CDA&&y≤y″≤y′-1)},其中CDP(ConnectionDomainPixels,连通域像素点)代表了以SH为高度和y'-y为宽度的区域的笔迹像素点以及其他与该区域内笔迹连通的笔迹像素点,其整个区域的高度近似等于H。进一步,所述字符的精细切分具体包括如下步骤:S1、笔迹起始像素点,选择多字符区域的最左侧笔迹像素点的位置并设定为笔迹起始像素点(x,y)且px,y=1;S2、重叠非粘连字符,从多字符的一侧开始向另一侧进行切片分析,以第一个字符重心c′1为中间位置和FW为宽度,取该字符重心的另一侧的笔迹区域,其中FW=max{H/2,c′1(2)-y}代表在字符高度除以2和笔迹起始像素点到第一个字符重心的距离两者中选最大值,c′1(1)代表邻近笔迹起始像素点的字符重心的横向值。对该区域进行连通域分析,若存在一个或多个非连通域使得笔迹起始像素点所在的字符与多字符区域的其他字符完全分离,则该字符与其他字符处于重叠关系,设定字符区域设定以完成单字符切分,其标记为“1”。重新设定笔迹起始像素点并移除该位置右侧的已切分字符的笔迹像素点,继续执行多字符切分处理,直至完成。S3、粘连字符,以第一个字符重心c′1为中间位置和FW为宽度,取该字符重心的另一侧的笔迹区域外的邻近字符重心c′2,其中FW本文档来自技高网...

【技术保护点】
1.一种脱机手写体文本的字符切分方法,其特征在于,包括字符高度估计、字符的粗略切分和字符的精细切分;所述字符高度估计运用连通域分析法进行字符高度估计,文字高度h作为一个自适应变量,它与文本图像的字符大小直接关联;首先明确相邻像素点概念,即每个像素点含有相邻像素点的数目为八(除边缘位置),它们分别处于该像素点的左、右、上、下、左上、右上、左下和右下八个位置;接着,笔迹像素点的连通域概念,即每个连通域是由若干个笔迹(有效)像素点组成的序列,该连通域的高度是最上方笔迹像素点位置与最下方笔迹像素点位置之差;所述字符的粗略切分基于像素空白区域完成单字符切分、粘连多字符切分以及标记;所述字符的精细切分对于标记粘连多字符的切分需要找到字符与字符之间的真正切分点,这一切分点能准确地将他们切分;为此,粘连多字符大体上分为重叠非粘连、粘连两类;前者是指某一字符与其他字符存在垂直映射上的粘连,但是该字符笔迹像素点仍然可以通过连通域分析法得到其所有的连通域而与其他字符笔迹像素点不发生连通关系;后者是指某一字符与其他字符存在连通关系,换言之,该字符的笔迹像素点与其他字符的笔迹像素点存在重合,重合点的数量等于或大于1。...

【技术特征摘要】
1.一种脱机手写体文本的字符切分方法,其特征在于,包括字符高度估计、字符的粗略切分和字符的精细切分;所述字符高度估计运用连通域分析法进行字符高度估计,文字高度h作为一个自适应变量,它与文本图像的字符大小直接关联;首先明确相邻像素点概念,即每个像素点含有相邻像素点的数目为八(除边缘位置),它们分别处于该像素点的左、右、上、下、左上、右上、左下和右下八个位置;接着,笔迹像素点的连通域概念,即每个连通域是由若干个笔迹(有效)像素点组成的序列,该连通域的高度是最上方笔迹像素点位置与最下方笔迹像素点位置之差;所述字符的粗略切分基于像素空白区域完成单字符切分、粘连多字符切分以及标记;所述字符的精细切分对于标记粘连多字符的切分需要找到字符与字符之间的真正切分点,这一切分点能准确地将他们切分;为此,粘连多字符大体上分为重叠非粘连、粘连两类;前者是指某一字符与其他字符存在垂直映射上的粘连,但是该字符笔迹像素点仍然可以通过连通域分析法得到其所有的连通域而与其他字符笔迹像素点不发生连通关系;后者是指某一字符与其他字符存在连通关系,换言之,该字符的笔迹像素点与其他字符的笔迹像素点存在重合,重合点的数量等于或大于1。2.根据权利要求1所述的一种脱机手写体文本的字符切分方法,其特征在于,所述字符高度估计具体步骤如下:(1)以文本图像的左上角和右下角为极限位置,随机选择k个位置点,即{(x1,y1),(x2,y2),…,(xk,yk)},其中k≥10;(2)获取每一个随机位置点的最邻近笔迹像素点,当该位置点的像素值为1,则最邻近像素点为自身;对第i个随机位置点(xi,yi)而言,最邻近笔迹像素点(xi,yi)应满足如下条件:其中,DF表示一种距离度量函数,如欧式距离、曼哈顿距离和切比雪夫距离;表示文本图像第xj行第yj列的像素值,其值为1,表示该位置存在笔迹像素;运用连通域来计算k个最邻近笔迹像素点所在的笔迹连通域高度{h1,h2,…,hk};实验结果表明,k取值范围为[20,30],字符高度处于k个通域的平均高度与最大高度之间且偏向于后者;为此,将k个连通域的高度值按小到大排序,选择第个高度值作为字符初始高度估计值。3.根据权利要求1所述的一种脱机手写体文本的字符切分方法,其特征在于,所述字符的粗略切分具体包括如下步骤:S1、获取待处理的行结构以及对应的字符重心C={c1,c2,…,ci,…,cn'},其中n'表示字符重心的总数量,i表示字符重心的下标,ci表示第i个字符中心的纵向值和横向值;S2、笔迹起始像素点,行结构的起始点是由其第一个字符重心投影至行结构得到,并非该行结构的起始像素点,需要对其进行前向延伸H/2并结合连通域以确定笔迹起始像素点(x,y)且px,y=1;S3、像素空白区域,从笔迹起始像素点开始,以行结构为中心、宽度为SW,高度为SH向行结构的另一端做切片分析,若以(x',y')为左上角的切片区域不存在任何笔迹像素点,则该切片被认为是像素空白区域。这一区域对应了单字符与其他字符的间隔区域、多字符与其他字符的间隔区域和其他区域三种情况之一;情况一,笔迹起始像素点到该切片的距离近似于字符高度且存在字符重心处于该区域的相对中心位置,即{ci∈[x:x+SH,y:y'-1],y'-y≈H|ci∈C},进入字符区域设定以完成单字符切分,其标记为“1”,设置该切片后续非空白区域的切片为新的笔迹起始像素点;情况三,笔迹起始像素点到该切片的距离远大于字符高度且多个字符重心处于该区域中,进入字符区域设定以完成多字符切分...

【专利技术属性】
技术研发人员:王寅同
申请(专利权)人:南京晓庄学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1