一种脱机手写体文本的行结构分析方法技术

技术编号:18351143 阅读:27 留言:0更新日期:2018-07-02 00:50
本发明专利技术公开了一种脱机手写体文本的行结构分析方法,包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元;所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值;所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想,将同一文本行的字符重心聚为一类,不同文本行的字符重心聚到不同类别中;该脱机手写体文本的行结构分析方法,通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值。

【技术实现步骤摘要】
一种脱机手写体文本的行结构分析方法
本专利技术涉及倾斜文本行分析
,具体为一种脱机手写体文本的行结构分析方法。
技术介绍
在倾斜文本行、不规则文本行片段以及行片段组合等条件下,行结构分析准确与否将严重制约脱机手写体文本识别的效率,现有的脱机手写体文本研究主要集中于提升字符识别准确率以及降低字符识别的时间复杂度和空间复杂度。相比较而言,研究脱机手写体文本预处理的文献则更少,其原因可以在已有公开的汉字识别数据库找到,如HIT-MW、CASIA-HWDB和HCL2000等,这些数据库中的文本图像具有整行整段的数据结构,缺乏现实情况下的零散字符片段的数据。
技术实现思路
针对现有技术的不足,本专利技术提供了一种脱机手写体文本的行结构分析方法,解决了
技术介绍
中提出的困难问题。为实现以上目的,本专利技术通过以下技术方案予以实现:一种脱机手写体文本的行结构分析方法,包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元;所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值;所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想,将同一文本行的字符重心聚为一类,不同文本行的字符重心聚到不同类别中;所述字符文本行拟合单元主要运用最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y=Φ(x);其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息;利用最小二乘法多项式实现字符文本行拟合的原理:给定字符重心簇中的字符重心pi=(xi,yi),i=1,2,…,m;求近似曲线y=Φ(x),并且使得近似曲线与y=f(x)的偏差最小;近似曲线在点pi处的偏差δi=Φ(xi)-y,i=1,2,…,m,其中最小偏差平方和的表达式为字符高度优化单元有效解决初始字符高度估计的偏差;增加字符高度会降低单字符存在多个字符重心的比率。作为本专利技术的进一步优选方案,所述字符文本行拟合单元具体实现过程:(1)设拟合多项式及偏差平方和y=a0+a1x+…+akxk(2)为了求得符合条件的a值,对等式右边求ai偏导数及化简(3)把这些等式表示成矩阵的形式,就可以得到下面的矩阵:(4)将这个范德蒙得矩阵简化后可得到:(5)也就是说,X*A=Y,那么A=(X'*X)-I*X'*Y,便得到了系数矩阵A。同时,也得到了对应的拟合曲线。有益效果本专利技术提供了一种脱机手写体文本的行结构分析方法。具备以下有益效果:该脱机手写体文本的行结构分析方法,通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值。优点:该方式能够自适应于不同脱机手写体文本的文字高度,同时,以同一簇中的字符重心为坐标点进行拟合,能够获取该簇字符重心所在的行结构;相对于字符重心而言,拟合得到的行结构更稳定,也更好地反映脱机手写体的字符分布信息,实用性强,易于推广使用。附图说明图1为本专利技术的脱机手写体文本的行结构分析流程图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种脱机手写体文本的行结构分析方法,包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元。字符高度估计单元:运用连通域分析法进行字符高度估计。文字高度h作为一个自适应变量,它与文本图像的字符大小直接关联。首先明确相邻像素点概念,即每个像素点含有相邻像素点的数目为八(除边缘位置),它们分别处于该像素点的左、右、上、下、左上、右上、左下和右下八个位置;接着,笔迹像素点的连通域概念,即每个连通域是由若干个笔迹(有效)像素点组成的序列,该连通域的高度是最上方笔迹像素点位置与最下方笔迹像素点位置之差。然后,运用连通域分析法进行文字高度估计,具体步骤如下:(1)以文本图像的左上角和右下角为极限位置,随机选择k个位置点,即{(x1,y1),(x2,y2),…,(xk,yk)},其中k≥10;(2)获取每一个随机位置点的最邻近笔迹像素点,当该位置点的像素值为1,则最邻近像素点为自身。对第i个随机位置点(xi,yi)而言,最邻近笔迹像素点(xi,yi)应满足如下条件:其中,Dist1表示一种距离度量函数,如欧式距离、曼哈顿距离和切比雪夫距离;表示文本图像第xj行第yj列的像素值,其值为1,表示该位置存在笔迹像素。(3)运用连通域来计算k个最邻近笔迹像素点所在的笔迹连通域高度{h1,h2,…,hk}。实验结果表明,k取值范围为[20,30],字符高度处于k个通域的平均高度与最大高度之间且偏向于后者。为此,将k个连通域的高度值按小到大排序,选择第个高度值作为字符初始高度估计值。字符重心聚类单元:字符重心定位既可以准确地得到单个字符在文本图像中的位置,又可以由字符重心来区分不同字符;对于倾斜文本行、不规则文本片段以及粘连字符的脱机手写体文本,字符重心定位方法能够快速准确地区分不同字符,进而为后续单字符或多字符识别以及非显著切分式文本识别提供有力的支持。字符重心聚类利用了聚类方法的类内紧凑而类间分离的基本思想,将同一文本行的字符重心聚为一类,不同文本行的字符重心聚到不同类别中。参考专利“一种脱机手写体文本识别的字符重心定位方法”,专利号:201710606575.1,字符重心C={c1,c2,…,ci,…,cn'},其中n'表示字符重心的总数量,i表示字符重心的下标,ci表示第i个字符中心的纵向值和横向值(对图坐标而言,纵向值由小到大对应于由图上方到图下方,横向值由小到大对应于由图左方到图右方),即ci=(ci(1),ci(2))。为了更有效地实现字符重心聚类,此处需要提前完成字符重心排序和字符重心距离定义。前者以字符重心的纵向值为主序及横向值为次序按从小到大的排序方式,进行字符重心排序。后者两个字符重心之间的距离采用类似于曼哈顿距离的度量方式,即第i个字符重心(ci(1),ci(2))和第j个字符重心(cj(1),cj(2))之间的距离如下:Dist2((ci(1),ci(2)),(cj(1),cj(2)))=|ci(1)-cj(1)|×w1+|ci(2)-cj(2)|×w2(2)公式2的设计原因:不同的横向和纵向的权重,使得邻近重心聚类向权重大的方向进行。其中,w1和w2分别表示横向和纵向的权重,且w1+w2=1。通常,脱机手写体文本的书写顺序是从左到右,那么计算两个字符重心距离时应使得横向权重小于纵向权重,换言之,若某一对象A存在相同距离的横向位置B对象和纵向位置C对象时,考虑到横向权重小于纵向权重,那么对象A的最近邻对象应为B。结合实验结果得出,w1的取值范围[0.33,0.45]。字符重心聚类的具体步骤如下:(1)字符重心聚类后的存储结构SCCSMaxRows×MaxChars,其中MaxRows表示文本的最大行数值,MaxChars表示每一行的本文档来自技高网...
一种脱机手写体文本的行结构分析方法

【技术保护点】
1.一种脱机手写体文本的行结构分析方法,其特征在于,包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元;所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值;所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想,将同一文本行的字符重心聚为一类,不同文本行的字符重心聚到不同类别中;所述字符文本行拟合单元主要运用最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y=Φ(x);其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息;利用最小二乘法多项式实现字符文本行拟合的原理:给定字符重心簇中的字符重心pi=(xi,yi),i=1,2,…,m;求近似曲线y=Φ(x),并且使得近似曲线与y=f(x)的偏差最小;近似曲线在点pi处的偏差δi=Φ(xi)‑y,i=1,2,…,m,其中最小偏差平方和的表达式为

【技术特征摘要】
1.一种脱机手写体文本的行结构分析方法,其特征在于,包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元;所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值;所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想,将同一文本行的字符重心聚为一类,不同文本行的字符重心聚到不同类别中;所述字符文本行拟合单元主要运用最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y=Φ(x);其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息;利用最小二乘法多项式实现字符文本行拟合的原理:给定字符重心簇中的字符重心pi=(xi,yi),...

【专利技术属性】
技术研发人员:王寅同刘维周王小正
申请(专利权)人:南京晓庄学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1