当前位置: 首页 > 专利查询>刘恒林专利>正文

一种汉字拼形输入法的智能输入处理方法技术

技术编号:2875397 阅读:252 留言:0更新日期:2012-04-11 18:40
一种汉字拼形输入法的智能输入处理方法,它包括两个步骤:(I)输入的拼形编码串与每个字单元的对应的识别方法:在汉字句子输入过程中每字单元取两码的方法来进行输入,通过判断输入的汉字编码的奇偶数来进行字单元的分隔,识别到输入编码串中所代表的字单元的个数,(II)遍历字词,用匹配的字词组成一个交通网络图,然后查找该交通网络图的最短路径,得出最短路径所对应的汉字组合成的句子。它解决拼形输入法以语句输入的技术问题,实现每字两键的字、词、句混合输入,整句输入的正确率接近100%,输入的过程非常连贯,输入速度更快,输入更轻松;输入规则简单易学,容易掌握,输入速度高,并带有强大智能功能,不用人工分词,免除了在输入过程中要经常打空格的弊端。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及,可以应用在五笔、郑码、表形码、仓颉等汉字拼形或类拼形输入法中。拼音输入为了克服其重码率高的缺点,随着计算机技术的不断向前发展,不断地引入各种智能处理技术,以提高汉字输入的速度。先有“智能ABC”实现计算机自动分词,以词组为输入单位,降低重码率,加快输入速度,再而有“微软拼音”、“智能狂拼”等以句子为输入单位的智能输入法。“微软拼音”输入法的推出被誉为“划时代”的贡献,其强大的智能处理,计算机自动进行分词,无须人工去做,使拼音输入变得更加容易,更加方便,输入速度大大提升。拼音输入的智能语句输入处理方法主要原理是通过两个工序来完成1)以声母作为识别一个字单元的分隔点,然后找出每个字单元的编码所对应的所有汉字;2)以字单元作为交通网络图的一个节点,每个字单元抽出一个对应的汉字作为一个路径,用任意两节点之间所跨越的节点的各个编码串组成词拼音编码串进行词的匹配。找出词频最高的词,将其作为节点与节点之间的一条通路。计算由起节点到终节点的最短路径,得出最短路径所经过的通路上对应的字词所组成的句子,用该句子作为用户输入的拼音编码串所对应的汉字句子。为形象说明这一原理,下面以拼音输入为例。如用户用拼音输入今天是星期五jin-tian-shi-xing-qi-wu今天是星期五对于计算机来说,如果每个字词没有词频的话,并不知道用户具体输入的是什么内容。如以上的输入语句计算机可能会识别出以下这些字、词、句,其中数字代表这些词的词频级,值越小代表词频越高-今天(6)——天时(7)- -星期(7)--欺侮(9)-尽(4)--天(4)--是(2)--行(4)--期(5)--五(5)---实行(7)-——星期五(12)-----以上的字词可以代表如下句子今天是星期五尽天时行欺侮今天实行欺侮尽天时星期五如果将句子的开始到结尾连成一条通路,将各字或词代表其中一段可行的通路,以上的这些句子就是其中一条由开始到结尾的可行的路径。例如“尽天时星欺侮”这一句的路径是“尽”+“天时”+“行”+“欺侮”;“今天实行欺侮”这一句的路径是“今天”+“实行”+“欺侮”等等。如果用词的词频级来表示每一通路的路径长度,并适当调整每一可行通路的长度,使得由开始到结尾的最短路径只有一条,那么我们可以定义这一条由开始到结尾的最短路径所组成的句子就是我们所要输入的句子。我们就可以根据用户的输入,通过查找最短路径的算法,来确定用户的输入是什么句子。例如以上的句子的路径长度分别是今天是星期五=“今天”+是+“星期五”=6+2+12=20尽天时行欺侮=“尽”+“天时”+“行”+“欺侮”=4+7+4+9=24今天实行欺侮=“今天”+“实行”+“欺侮”=6+7+9=22尽天时星期五=“尽”+“天时”+“星期五”=4+7+12=23其中路径最短的一句话是“今天是星期五”=6+2+12=20所以计算机通过这一结论可以确定用户是要输入“今天是星期五”这一句话。相反,对于拼形输入来说,在智能处理方面就大大逊色,“王码五笔”和“幸福五笔”依然的和刚推出时一样,一点改进也没有,可以讲得上一点儿智能处理也没有,如自动调频,自动造词等。近来推出的“智能陈桥输入法”虽然有很大改进,如自动调频、造词、变形的语句输入、显示简码等,博得了不少传统的用户的青睐。但和微软拼音的强大语句输入的智能处理相比,还差一大截。拼形输入出现这种局面的原因,主要是由于如下原因所造成。(一)传统认识上的误区认为只要有优秀的汉字键盘编码方案就能使重码率接近零,大大提高输入的速度,根本无须要智能处理,只有拼音这种重码率大高的编码方案才需要智能处理。殊不知,为了追求这个重码率为零的目标,其代价是将汉字的编码规则搞得复杂到令人难以接受,使许多初学者被拒之门外。这就是为什么传统的拼音输入法还是成为主流输入法的原因。最流行的拼形输入法——五笔字型也只占了小部分的用户群,使用其它拼形输入法的人则凤毛麟角。(二)关键的原因是技术没有解决由于拼音输入法可以通过声韵母进行字和字的划分,所以可以识别到用户是进行字输入还是词的输入,进而可以识别到整句话的输入。而拼形输入就不能根据输入的编码进行字词的识别。例如用拼音输入法输入“今天是星期五”,可以整个语句进行输入jin’tian’shi’xing’qi’wu。计算机通过对声韵母的划分可以判断出用户要输入多少个字,进而可以进行词的匹配,再进而通过各词的使用词频进行运算,得出输入的句子。如“微软拼音”输入法就是这样处理的。而对于拼形输入来说,以五笔为例,输入以上的字需要输入输入编码wynb gd j jtg adwegghg由于每字(含词)的取码,由1至4码不等,各字具体的取码是均匀分布的,字和字的具体的编码之间没有特征来区分,进而限制了拼形输入法以语句输入的发展。所以要使拼形输入可以向语句输入的方向发展,关键就是解决通过输入的编码来分隔字的问题。而这就是本输入法的核心专利技术之一。本专利技术是通过如下技术方案来实现的它包括两个步骤(I)输入的拼形编码串与每个字单元的对应的识别方法采用奇偶位识别汉字句子编码串,即在汉字句子输入过程中每字单元取两码的方法来进行输入,通过判断输入的汉字编码的奇偶数来进行字单元的分隔,识别到输入编码串中所代表的字单元的个数,即字的个数,第一个字单元对应第1编码和第2编码,第二字单元将对应第3编码、第4编码,第N个的单元第2N-1编码和第2N编码。(II)遍历字词,用匹配的字词组成一个交通网络图,然后查找该交通网络图的最短路径,得出最短路径所对应的汉字组合成的句子(a)定交通网络图的各个节点,即利用步骤(I)分隔出的每个字单元,以字单元作为交通网络图的一个节点,每一个节点由两码组成;(b)用各个节点的编码串以及任意两个节点之间所跨越的节点共同组成的一个编码串进行字词的匹配,匹配是用编码串在词库中进行查找,查找出和编码串相符且词频最高的字词,两码为字的匹配,两码以上为词的匹配,凡存在匹配的字词,就将其作为节点与节点之间的一条通路,并根据词频的大小赋予该通路一长度值,词频越大,长度越短,反之亦然;(C)通过步骤(a)和步骤(b),我们就将用户输入语句对应的编码串转化为一带权值的交通网络图,该交通网络图的节点数为编码串的长度/2,每一条通路对应一个字词,计算由起节点到终节点的最短路径,得出最短路径所经过的通路上对应的字词所组成的句子,用该句子作为用户输入的编码串所对应的汉字句子。本专利技术在输入过程中还含有快速修正步骤(III),包括回退修正和边输入边修正,回退修正是指当输入一句话后,发现前面出现的字或词不是所需的可以移动光标,每次移动两个字母,即一个字,进行正确字,词的选取,选取时可以由左至右或由右至左进行,当字单元的两个码不能识别出正确的汉字时,通过输入第三码快速找出合适的汉字;边输入边修正是指在输入过程中,当出现的字词不是所需的,可以从重码列表中选择正确的字词或进行分词。本专利技术在进行汉字输入过程中,实行动态调整词频步骤(IV),即当输入过程中或在回退修正时,出现重码的字词时,如果第一个出现最高频的字词就是所需的字,用户无需进行选择继续输入其它编码;如果不是用户所需的字词,用户必须进行选择,用户进行了选择后,计算机则自动将选择的词的词频调整成该本文档来自技高网...

【技术保护点】
一种汉字拼形输入法的智能输入处理方法,其特征在于它包括两个步骤:(Ⅰ)输入的拼形编码串与每个字单元的对应的识别方法:采用奇偶位识别汉字句子编码串,即在汉字句子输入过程中每字单元取两码的方法来进行输入,通过判断输入的汉字编码的奇偶数来进行 字单元的分隔,识别到输入编码串中所代表的字单元的个数,即字的个数,第一个字单元对应第1编码和第2编码,第二字单元将对应第3编码、第4编码,第N个的单元第2N-1编码和第2N编码;(Ⅱ)遍历字词,用匹配的字词组成一个交通网络图,然后查找该 交通网络图的最短路径,得出最短路径所对应的汉字组合成的句子:(a)确定交通网络图的各个节点,即利用步骤(Ⅰ)分隔出的每个字单元,以字单元作为交通网络图的一个节点,每一个节点由两码组成;(b)用各个节点的编码串以及任意两个节点之间所跨 越的节点共同组成的一个编码串进行字词的匹配,匹配是用编码串在词库中进行查找,查找出和编码串相符且词频最高的字词,两码为字的匹配,两码以上为词的匹配,凡存在匹配的字词,就将其作为节点与节点之间的一条通路,并根据词频的大小赋予该通路一长度值,词频越大,长度越短,反之亦然;(c)通过步骤(a)和步骤(b),我们就将用户输入语句对应的编码串转化为一带权值的交通网络图,该交通网络图的节点数为:编码串的长度/2,每一条通路对应一个字词,计算由起节点到终节点的最短路径,得出最短路径所经 过的通路上对应的字词所组成的句子,用该句子作为用户输入的编码串所对应的汉字句子。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘恒林
申请(专利权)人:刘恒林
类型:发明
国别省市:44[中国|广东]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1