当前位置: 首页 > 专利查询>新疆大学专利>正文

一种手写维吾尔文单词切分识别方法技术

技术编号:19343566 阅读:26 留言:0更新日期:2018-11-07 14:25
本发明专利技术的一种手写维吾尔文单词切分识别方法属于手写体识别领域,特别适用于在移动终端上手写维吾尔文单词的单词切分的识别方法。本发明专利技术所要解决的技术问题是提供一种不做预先探测延迟笔画的利用手写轨迹局部信息的单词切分方法,包括以下步骤:预处理;轨迹局部信息点探测;检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点;基于轨迹局部信息点的单词过切分;切分块合并;组合切分块,形成字母。本发明专利技术的手写维吾尔文单词切分方法,由于不需要进行预先延迟笔画处理,因此处理更加快捷,具有较高的通用性,适合自然手写单词的切分问题。

A handwritten Uyghur word segmentation recognition method

The invention relates to a handwritten Uygur word segmentation recognition method, which belongs to the field of handwritten recognition, and is especially suitable for handwritten Uygur word segmentation recognition method on mobile terminal. The technical problem to be solved by the present invention is to provide a word segmentation method using local information of handwritten trajectory without pre-detecting delayed strokes, including the following steps: preprocessing; detection of local information points of trajectory; detection of straight points, local maximum points/peaks, local minimum points/valleys and local rightmost points in handwritten trajectory. Information points such as points, local leftmost points, intersections and the starting and ending points of strokes; word over-segmentation based on local information points of trajectory; segmentation and merging; combination and segmentation to form letters. The handwritten Uygur word segmentation method of the present invention is faster and more versatile, and is suitable for natural handwritten word segmentation because it does not need to delay stroke processing in advance.

【技术实现步骤摘要】
一种手写维吾尔文单词切分识别方法
本专利技术属于手写体识别领域,特别适用于在移动终端上手写维吾尔文单词的单词切分的识别方法。
技术介绍
手写识别是模式识别领域中应用广泛的分支之一。手写识别有两大类,一是对于实时记录的手写轨迹上进行识别的联机手写识别技术,另一种是对于手写样式图像的识别技术,即脱机手写识别技术。对不同文种或文字的手写识别实现方法有所不同。有些文字中字母是表示意义的单元,比如中文。对于字母为意义单元的手写识别主要对其包含的所有字母进行识别,而且常用字母的数量有限,完全可能开发出能分辨这些常用字母的分类器。在拼音文字中,单词是基本意义单元。所以对拼音文字而言,单词是其手写识别的主要对象。拼音文字中词汇量一般很大,导致对拼音文字的手写单词识别技术难以实现符合所有单词的水平。拼音文字中的单词由字母连接而成。根据拼音文字的这种属性,可以用多种方法来实现其手写识别技术。对拼音文字的手写识别可以用两种识别策略。一,把整个单词作为直接识别单元进行识别,叫做整体单词识别。与其相反,另一种策略首先要把单词中的字母分割出来,然后用已经训练好的字母识别器对各分割出来的字母进行识别,最后形成单词识别结果。从单词中把个字母分割叫做字母分割或单词切分,用这种单词切分和字母识别的结合来实现单词识别的方法叫做基于切分的单词识别或简称切分单词识别。整体单词识别和切分单词识别都有其长短之处。整体单词识别在单词类别数据不是很大的情况下可以获得很高的准确率。它的这种属性让它非常适合应用于特定场合的手写识别任务,比如手写登录等。切分单词识别的优势在于它要识别的单词类别数据可以无穷大,是解决拼音文字单词识别问题的最终方案,也是开发公用手写输入法的必经之路。维吾尔文有32个基本字母类型,每个字母类型有2-8个字母形式。在单词中该用哪个字母形式由字母在单词中的位置决定。除了126中字母形式之外,还有一个特殊字符和一个复合字符在实际书写中十分常用。这个特殊字符和复合字符各有两种形式,还是由单词中的位置来选用。所以维吾尔文中我们应该考虑的字母形式总共有130种。中国专利CN104899601A,专利技术名称为:一种手写维吾尔文单词识别方法,公开了一种涉及手写维吾尔文单词识别方法,该方法首先对手写维文单词预处理,接着分别提取了维文单词的笔画结构特征和梯度特征,笔画结构特征是直接在时间坐标序列上提取的,而梯度特征是把预处理后手写维吾尔文单词的时间坐标序列映射为二维图像,在二维的图像中提取的,然后将两者特征进行串行融合,最后采用欧式距离分类器进行分类识别,得到识别结果。《计算机与信息科学通讯》2012,321(6):530-538,一种有效的联机手写维吾尔文手写字符分离方法,公开了一种识别维吾尔文手写字符的方法,主要包括以下步骤,第一步:分离附加笔画(延迟笔画):首先从单词整体中把延附加画分离出来形成延迟笔画组。根据大多数附加笔画尺寸偏小,用简单的笔画尺寸阈值作为分离标准。首先分离延迟笔画会减轻正确字母切分点被遮盖儿被抛弃的错误,还有在最后字母重构的时候提高方便;第二步:预切分:把轨迹中的平点作为最初候选切分点,如果从轨迹中每一点到其下一个点的倾斜角度小于阈值并且书写方向为从右到左,则该坐标点被作为平点即最初候选切分点,(a)检查候选点是否被遮盖,遮盖检查范围是在此候选点上方左右某个角度范围之内,按照书写规则,正确切分点一般不应该被其它点遮盖;(b)把距离相近的候选切分点形成多个候选切分选段;(c)把每个候选切分线段的中点作为最后的预切分点;第三步:基于规则的切分过滤:过滤条件是两种:(a)里主笔画基线的距离大于阈值的切分点被抛弃;(b)相邻距离小于阈值的切分点中只保留一个,另一个被抛弃;第四步:附加笔画与主笔画的切分块重组形成字母;从主笔画中切分出来的切分块与附加笔画的重组是根据他们横向的位置关系来实现的。如果某附加笔画归属于跟它块重叠率最大的切分块。上述方法中,都需要很多高效的预处理操作,包括去燥和重复点、轨迹点插入、平滑滤波、等距离轨迹点采样。这些预处理操作可以用常用的方法来进行。手写单词切分/字母分割任务一般还需要特殊的预处理方法,比如,基线位置探测和倾斜矫正、延迟笔画探测等,其目的把附加笔画(延迟笔画)分离出来,用候选切分点上方某个范围之内判断他是否被遮盖的情况等步骤和方法。倾斜矫正,基线位置探测和附加笔画探测等特殊预处理技术不容易得到最佳效果,因而影响切分效果。所以,上述方法只在手写样本十分规范的情况下才能发挥较好的切分效果。基于局部轨迹信息点的切分方法则不需要倾斜矫正和基线位置他侧等操作,有效提高了切分系统的性能,具有更好的通用性。
技术实现思路
本专利技术所要解决的技术问题是提供一种不做预先探测延迟笔画的利用手写轨迹局部信息的单词切分方法。本专利技术解决其技术问题所采用的一种手写维吾尔文单词切分识别方法,包括以下步骤:步骤1:预处理:1.1去燥和重复点,1.2轨迹点插入,1.3平滑滤波,1.4等距离轨迹点采样,步骤2:轨迹局部信息点探测:检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点,2.1笔画起点和终点:笔画起点和笔画终点指的是笔画的第一点和笔画的最后点;2.2平点检测:从笔画的第二点开始,在笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)形成一个线段,计算该线段对于横轴的倾斜度θ。如果线段的倾斜度小于平点检测阈值,则该点被记为平点;如果线段倾斜度大于平点检测阈值,则该点被记为非平点;由相邻点构成的线段倾斜度计算公式:2.3峰点和谷点检测:2.3.1将笔画轨迹的笔画起点同时设定为初始峰点和谷点:峰点=谷点=笔画起点(x1,y1);2.3.2在笔画轨迹上逐点寻找真实的峰点和谷点:对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位置高于前一点,则前一点暂时被认为谷点,直到遇到纵向位置比谷点低的轨迹点,这时更新谷点;对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位置低于前一点,则前一点暂时被认为峰点,直到遇到纵向位置比峰点高的轨迹点,这时更新峰点;以上轨迹点比较操作可简单描述为:若yi>yi-1:谷点=(xi-1,yi-1),访问下一点若yi<yi-1:峰点=(xi-1,yi-1),访问下一点2.3.3确定笔画轨迹的峰点和谷点;2.4最右和最左点检测,2.4.1笔画轨迹的笔画起点同时作为初始最右点和最左点,2.4.2在笔画轨迹上逐点寻找真实的最右点和最左点:对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较。如果该点位于前一点的左边,则前一点暂时被认为最右点,直到遇到横向位置比最右点更右的轨迹点,这时更新最右点;对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位于前一点的右边,则前一点暂时被认为最左点,直到遇到横向位置比最左点更左的轨迹点,这时更新最左点;2.4.3确定笔画轨迹的最右点和最左点;2.5交叉点检测:2.5.1用笔画轨迹中最初两个点作为两个相邻监测点P1和P本文档来自技高网
...

【技术保护点】
1.一种手写维吾尔文单词切分识别方法,其特征在于,包括以下步骤:步骤1:预处理:1.1去燥和重复点,1.2轨迹点插入,1.3平滑滤波,1.4等距离轨迹点采样;步骤2:轨迹局部信息点探测:检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点,2.1笔画起点和终点:笔画起点和笔画终点指的是笔画的第一点和笔画的最后点;2.2平点检测:从笔画的第二点开始,在笔画轨迹中的每一点(xi,yi)与其前一点(xi‑1,yi‑1)形成一个线段,计算该线段对于横轴的倾斜度θ。如果线段的倾斜度小于平点检测阈值,则该点被记为平点;如果线段倾斜度大于平点检测阈值,则该点被记为非平点;由相邻点构成的线段倾斜度计算公式:

【技术特征摘要】
1.一种手写维吾尔文单词切分识别方法,其特征在于,包括以下步骤:步骤1:预处理:1.1去燥和重复点,1.2轨迹点插入,1.3平滑滤波,1.4等距离轨迹点采样;步骤2:轨迹局部信息点探测:检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点,2.1笔画起点和终点:笔画起点和笔画终点指的是笔画的第一点和笔画的最后点;2.2平点检测:从笔画的第二点开始,在笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)形成一个线段,计算该线段对于横轴的倾斜度θ。如果线段的倾斜度小于平点检测阈值,则该点被记为平点;如果线段倾斜度大于平点检测阈值,则该点被记为非平点;由相邻点构成的线段倾斜度计算公式:2.3峰点和谷点检测:2.3.1将笔画轨迹的笔画起点同时设定为初始峰点和谷点:峰点=谷点=笔画起点(x1,y1);2.3.2在笔画轨迹上逐点寻找真实的峰点和谷点:对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位置高于前一点,则前一点暂时被认为谷点,直到遇到纵向位置比谷点低的轨迹点,这时更新谷点;对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位置低于前一点,则前一点暂时被认为峰点,直到遇到纵向位置比峰点高的轨迹点,这时更新峰点;以上轨迹点比较操作可简单描述为:若yi>yi-1:谷点=(xi-1,yi-1),访问下一点若yi<yi-1:峰点=(xi-1,yi-1),访问下一点2.3.3确定笔画轨迹的峰点和谷点;2.4最右和最左点检测,2.4.1笔画轨迹的笔画起点同时作为初始最右点和最左点,2.4.2在笔画轨迹上逐点寻找真实的最右点和最左点:对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位于前一点的左边,则前一点暂时被认为最右点,直到遇到横向位置比最右点更右的轨迹点,这时更新最右点;对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较。如果该点位于前一点的右边,则前一点暂时被认为最左点,直到遇到横向位置比最左点更左的轨迹点,这时更新最左点;2.4.3确定笔画轨迹的最右点和最左点;2.5交叉点检测:2.5.1用笔画轨迹中最初两个点作为两个相邻监测点P1和P2,并可连接形成线段,命名为检测线段;然后,剩下的笔画轨迹被逐点访问。其中每一点被命名为访问点;2.5.2对每一个访问点P3与其前一个访问点P4形成第二个线段,命名为访问线段;2.5.3用下列公式计算相邻监测点和相邻访问点构成的两条直线的交叉点,b1是由相邻监测点P1和P2构成的直线倾斜度和载值;k2,b2是由相邻访问点P3和P4构成的直线倾斜度和载值;θ和(x0,y0)是两条直线夹角和交叉点P0的坐标;2.5.4如果交叉点位于相邻检测点和相邻访问点纵横坐标所形成的矩形之中,同时夹角θ小于设定的夹角阈值T_cross_angle,则第一个检测点P1被记为交叉点;2.5.5访问所有访问点以后,回到步骤2.5.1,用笔画轨迹中的第二个点与其后一点新的相邻监测点,重复步骤2.5.2、2.5.3、2.5.4访问此相邻监测点之后的笔画轨迹;步骤3:基于轨迹局部信息点的单词过切分,3.1横向过切分:用笔画轨迹中落于环形外的谷点作为初始切分点,形成初始切分块;3.2用交叉点对初始切分点进行优化:访问每一个的初始切分块,并按如下方式处理,3.2.1如果,初始切分块包含交叉点,并且交叉的时间顺序优先于初始切分点,该初始切分点被认为重叠在环形结构里面,需丢弃;交叉点作为正确的切分点;3.2.2如果初始切分点的时间顺序落后于环形结构,则初始切分点被保留;3.3纵向过切分:对以上步骤得到的每一个的初始切分块,用局部最右点和局部最左点进行再次切分分析;3.3.1如果切分块中最左点之前有步骤3.2确定的切分点,该切分点被保留;3.3.2如果切分块中最左点之前有步骤3.2确定的交叉点,该切分块不做处理;3.3.3如果切分块中最左点之前没有总轨迹中记录的初始切分点或交叉点(这种情况总是在笔画起段的部分出现),该最左点之前应该加一个切分点;步骤4:切分块合并,4.1合并笔画起段和终段的切分块:用切分块轨迹长度阈值来判断笔画起段和笔画终段的多余切分块;如果,切分块中轨迹序列长度小于切分块轨迹长度阈值,该切分块被...

【专利技术属性】
技术研发人员:艾斯卡尔·艾木都拉吾加合买提·司马义玛依热·依布拉音
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1