The invention relates to a handwritten Uygur word segmentation recognition method, which belongs to the field of handwritten recognition, and is especially suitable for handwritten Uygur word segmentation recognition method on mobile terminal. The technical problem to be solved by the present invention is to provide a word segmentation method using local information of handwritten trajectory without pre-detecting delayed strokes, including the following steps: preprocessing; detection of local information points of trajectory; detection of straight points, local maximum points/peaks, local minimum points/valleys and local rightmost points in handwritten trajectory. Information points such as points, local leftmost points, intersections and the starting and ending points of strokes; word over-segmentation based on local information points of trajectory; segmentation and merging; combination and segmentation to form letters. The handwritten Uygur word segmentation method of the present invention is faster and more versatile, and is suitable for natural handwritten word segmentation because it does not need to delay stroke processing in advance.
【技术实现步骤摘要】
一种手写维吾尔文单词切分识别方法
本专利技术属于手写体识别领域,特别适用于在移动终端上手写维吾尔文单词的单词切分的识别方法。
技术介绍
手写识别是模式识别领域中应用广泛的分支之一。手写识别有两大类,一是对于实时记录的手写轨迹上进行识别的联机手写识别技术,另一种是对于手写样式图像的识别技术,即脱机手写识别技术。对不同文种或文字的手写识别实现方法有所不同。有些文字中字母是表示意义的单元,比如中文。对于字母为意义单元的手写识别主要对其包含的所有字母进行识别,而且常用字母的数量有限,完全可能开发出能分辨这些常用字母的分类器。在拼音文字中,单词是基本意义单元。所以对拼音文字而言,单词是其手写识别的主要对象。拼音文字中词汇量一般很大,导致对拼音文字的手写单词识别技术难以实现符合所有单词的水平。拼音文字中的单词由字母连接而成。根据拼音文字的这种属性,可以用多种方法来实现其手写识别技术。对拼音文字的手写识别可以用两种识别策略。一,把整个单词作为直接识别单元进行识别,叫做整体单词识别。与其相反,另一种策略首先要把单词中的字母分割出来,然后用已经训练好的字母识别器对各分割出来的字母进行识别,最后形成单词识别结果。从单词中把个字母分割叫做字母分割或单词切分,用这种单词切分和字母识别的结合来实现单词识别的方法叫做基于切分的单词识别或简称切分单词识别。整体单词识别和切分单词识别都有其长短之处。整体单词识别在单词类别数据不是很大的情况下可以获得很高的准确率。它的这种属性让它非常适合应用于特定场合的手写识别任务,比如手写登录等。切分单词识别的优势在于它要识别的单词类别数据可以无穷大,是 ...
【技术保护点】
1.一种手写维吾尔文单词切分识别方法,其特征在于,包括以下步骤:步骤1:预处理:1.1去燥和重复点,1.2轨迹点插入,1.3平滑滤波,1.4等距离轨迹点采样;步骤2:轨迹局部信息点探测:检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点,2.1笔画起点和终点:笔画起点和笔画终点指的是笔画的第一点和笔画的最后点;2.2平点检测:从笔画的第二点开始,在笔画轨迹中的每一点(xi,yi)与其前一点(xi‑1,yi‑1)形成一个线段,计算该线段对于横轴的倾斜度θ。如果线段的倾斜度小于平点检测阈值,则该点被记为平点;如果线段倾斜度大于平点检测阈值,则该点被记为非平点;由相邻点构成的线段倾斜度计算公式:
【技术特征摘要】
1.一种手写维吾尔文单词切分识别方法,其特征在于,包括以下步骤:步骤1:预处理:1.1去燥和重复点,1.2轨迹点插入,1.3平滑滤波,1.4等距离轨迹点采样;步骤2:轨迹局部信息点探测:检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点,2.1笔画起点和终点:笔画起点和笔画终点指的是笔画的第一点和笔画的最后点;2.2平点检测:从笔画的第二点开始,在笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)形成一个线段,计算该线段对于横轴的倾斜度θ。如果线段的倾斜度小于平点检测阈值,则该点被记为平点;如果线段倾斜度大于平点检测阈值,则该点被记为非平点;由相邻点构成的线段倾斜度计算公式:2.3峰点和谷点检测:2.3.1将笔画轨迹的笔画起点同时设定为初始峰点和谷点:峰点=谷点=笔画起点(x1,y1);2.3.2在笔画轨迹上逐点寻找真实的峰点和谷点:对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位置高于前一点,则前一点暂时被认为谷点,直到遇到纵向位置比谷点低的轨迹点,这时更新谷点;对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位置低于前一点,则前一点暂时被认为峰点,直到遇到纵向位置比峰点高的轨迹点,这时更新峰点;以上轨迹点比较操作可简单描述为:若yi>yi-1:谷点=(xi-1,yi-1),访问下一点若yi<yi-1:峰点=(xi-1,yi-1),访问下一点2.3.3确定笔画轨迹的峰点和谷点;2.4最右和最左点检测,2.4.1笔画轨迹的笔画起点同时作为初始最右点和最左点,2.4.2在笔画轨迹上逐点寻找真实的最右点和最左点:对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较,如果该点位于前一点的左边,则前一点暂时被认为最右点,直到遇到横向位置比最右点更右的轨迹点,这时更新最右点;对笔画轨迹中的每一点(xi,yi)与其前一点(xi-1,yi-1)的坐标进行比较。如果该点位于前一点的右边,则前一点暂时被认为最左点,直到遇到横向位置比最左点更左的轨迹点,这时更新最左点;2.4.3确定笔画轨迹的最右点和最左点;2.5交叉点检测:2.5.1用笔画轨迹中最初两个点作为两个相邻监测点P1和P2,并可连接形成线段,命名为检测线段;然后,剩下的笔画轨迹被逐点访问。其中每一点被命名为访问点;2.5.2对每一个访问点P3与其前一个访问点P4形成第二个线段,命名为访问线段;2.5.3用下列公式计算相邻监测点和相邻访问点构成的两条直线的交叉点,b1是由相邻监测点P1和P2构成的直线倾斜度和载值;k2,b2是由相邻访问点P3和P4构成的直线倾斜度和载值;θ和(x0,y0)是两条直线夹角和交叉点P0的坐标;2.5.4如果交叉点位于相邻检测点和相邻访问点纵横坐标所形成的矩形之中,同时夹角θ小于设定的夹角阈值T_cross_angle,则第一个检测点P1被记为交叉点;2.5.5访问所有访问点以后,回到步骤2.5.1,用笔画轨迹中的第二个点与其后一点新的相邻监测点,重复步骤2.5.2、2.5.3、2.5.4访问此相邻监测点之后的笔画轨迹;步骤3:基于轨迹局部信息点的单词过切分,3.1横向过切分:用笔画轨迹中落于环形外的谷点作为初始切分点,形成初始切分块;3.2用交叉点对初始切分点进行优化:访问每一个的初始切分块,并按如下方式处理,3.2.1如果,初始切分块包含交叉点,并且交叉的时间顺序优先于初始切分点,该初始切分点被认为重叠在环形结构里面,需丢弃;交叉点作为正确的切分点;3.2.2如果初始切分点的时间顺序落后于环形结构,则初始切分点被保留;3.3纵向过切分:对以上步骤得到的每一个的初始切分块,用局部最右点和局部最左点进行再次切分分析;3.3.1如果切分块中最左点之前有步骤3.2确定的切分点,该切分点被保留;3.3.2如果切分块中最左点之前有步骤3.2确定的交叉点,该切分块不做处理;3.3.3如果切分块中最左点之前没有总轨迹中记录的初始切分点或交叉点(这种情况总是在笔画起段的部分出现),该最左点之前应该加一个切分点;步骤4:切分块合并,4.1合并笔画起段和终段的切分块:用切分块轨迹长度阈值来判断笔画起段和笔画终段的多余切分块;如果,切分块中轨迹序列长度小于切分块轨迹长度阈值,该切分块被...
【专利技术属性】
技术研发人员:艾斯卡尔·艾木都拉,吾加合买提·司马义,玛依热·依布拉音,
申请(专利权)人:新疆大学,
类型:发明
国别省市:新疆,65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。