不需要输入音调符号的汉字转换装置制造方法及图纸

技术编号:2886474 阅读:309 留言:0更新日期:2012-04-11 18:40
一种汉字转换装置不需要输入声调符号,增加了输入效率。该汉字转换装置可以自动把连续输入的注意符号切割为多个符合注音合并规则的音节,而无论是否输入声调符号。每个音节或由多个音节构成的每个间串在词典中具有一组相应地同音字或词。由于声调符号的输入可以在本发明专利技术中省略,因此可以增加用户的输入速度。另外,可以避免由于错误的声调符号所造成的错误输入。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种用于从计算机系统中的注音符号的输入行转换汉字的汉字转换装置。计算机系统中所用的中文繁体字Big5码共有13051个字。将计算机系统汉化的关键是如何快速和正确地输入汉字。目前,在计算机系统中的汉字输入可以通过语音识别、文字识别和键盘操作而实现。利用键盘输入汉字仍然是最可靠和最通用的方法。汉字可以由用户通过键盘根据读音或字形而输入。尽管通过键盘根据字形输入汉字的优点是输入速度较快,但是,使用者难以记住大量地拆字规则,该规则用于把汉字拆为几个部分以供输入。因此,在象台湾这样的一些地方,大多数计算机用户愿意使用中文注音符号来输入汉字,这特别是因为他们从小学时候就开始学习中文注音。被作为台湾的小学教材的中文注音符号在下文示出。中文注音符号可以被分为四个大组,即韵母、介母、声母和声调。在本专利技术中,符号“…”表示第一声调,但是,应当指出实际上对于第一声调是没有符号的。声母ㄅ(b)ㄆ(p)ㄇ(m)ㄈ(f)ㄉ(d)ㄊ(t)ㄋ(n)ㄌ(1)ㄍ(g) ㄎ(k)厂(h)丩(j)ㄑ(q)ㄒ(x)ㄓ(zh)彳(ch)ㄕ(sh)ㄖ(r) ㄗ(z)ㄘ(c)ㄙ(s)介母一(i)ㄨ(u)ㄩ(v)韵母ㄚ(a)ㄛ(o)せ(e)ㄜ(e)ㄞ(ai)乀(ei)幺(ao)ㄡ(ou) ㄢ(an)ㄣ(en)ㄤ(ang)ㄥ(eng)ㄦ(er)声调…(第一声调)、 (第二声调)、 (第三声调)、 (第四声调)、 (轻声)每个音节或字音由韵母、介母和声母或声调所构成。除了声调之外,任何一个、二个或所有的韵母、介母和声母或声调可以同时包含在一个音节中。例如, 如上例所示,所谓音串是由多个连续的音节所构成的,其可以被转换为一行汉字。每个音节至少具有一个相应的同音字。目前,根据台湾《国语日报字典》,合理音节的总数是1364个。合理音节除了必须按照声母、介母、韵母和声调的次序排列之外,还必须具有一个相应的同音字。例如,“ㄐㄚ一 ”不是一个合理音节,因为介母和韵母的排列次序交换了。“ㄉ一幺 ”也不是一个合理音节,因为尽管注音符号的排列次序是正确的,但是它不对应于一个汉字。由于有许多中文同音字,因此在完成每个音节的相应注音符号的输入之后,还需要从多个同音字中选择一个正确的汉字,这降低了输入速度。由于中文同音词的总数相比之下小于中文同音字的总数,并且由于在文章中中文词的总数多于单个中文字的总数,因此如果按照中文词的形式输入注音符号,则减少了从多个同音字选择一个正确的汉字的需要。近年来,通过把词汇输入语音和语法的处理相结合,通过注音输入方法获得正确的汉字的百分比达到95%以上,即,需要从多个同音字/词选择正确的汉字/词在5%之内。常规的汉字变换装置公开于中国台湾专利申请第75105838号中。图5是上述中国台湾专利申请的常规汉字变换装置的方框图。参考标号100表示用于输入一行注音符号的输入单元。参考标号180表示用于存储多个用于转换的汉字的词典。参考标号140表示用于存储注音符号的输入行的音节数目的NCHAR寄存器。参考标号120表示用于存储注音符号的输入行的转换开始位置的PTR寄存器。参考标号130表示用于存储注音符号的输入行的转换长度的NP寄存器。参考标号150表示比较器单元,其用于在完成具有一定长度的词的转换之后将NP寄存器的值减1,以保持把优选级给予具有较长长度的词的转换。参考标号160表示转换控制单元。转换控制单元160按次序从输入起始位置开始移动PTR寄存器120的设定位置,并且确定是否有转换过的音节。如果没有转换过的音节,则词典180具有相应的词,并且转换控制单元160转换该音节。参考标号170表示词典搜索单元,其用于用来自转换控制单元160的音节作为一个搜索关键字来搜索词典180。参考标号190表示用于输出由转换控制单元160所得的汉字的输出单元。在上述常规汉字转换装置中使用的注音输入方法与传统的注音输入方法相同。尽管它符合传统用户的习惯,但是具有如下缺点在读音和注音符号之间有不一致的声调。例如,“总统”的注音符号为“ㄗㄨㄥ ㄊㄨㄥ ”。每个汉字的注音符号都包含第三声调的声调符号。但是,在读音时,前一汉字“总”的第三声调必须变为第二声调,即,对于“总统”在读音时的注音符号为“ㄗㄨㄥ ㄊㄨㄥ ”。这可能导致不正确的声调符号输入。另外,当用户不能正确地区分汉字的声调时,则不能通过注音符号输入法输入正确的汉字。因此,如果声调符号可以在注音符号的输入中使用,则可以避免上述问题。另外,还可以减少由用户进行的按键操作的总数。例如,如果对于汉字“总统”的输入注音符号被减少为“ㄗㄨㄥㄊㄨㄥ”,该汉字“总统”仍然可以转换出来。这是因为“ㄥ”是韵母,而“ㄊ”是声母,这样两个音节“ㄗㄨㄥ”和“ㄊㄨㄥ”可被容易地根据可接受的声母、介母、韵母和声调的排列容易地区分出来。但是,在省略声调符号的情况下,一些音节之间不容易切音。例如,“ㄊ一ㄢ”可以被识别为单个音节,并且可以转换为汉字“天”。但是,“ㄊ一ㄢ”可以被识别为两个连续音节“ㄊ一”和“ㄢ”,并且可以被转换为中文词“提案”。在这种情况下,本专利技术确定其为单个音节,使得汉字“天”被转换。如果用户认为这是一个错误结果,即,“ㄊ一ㄢ”应当包括两个连续音节,则一个特殊符号“’”可以被添加到表示两个音节的注音符号之间,即,“ㄊ一’ㄢ”,使得中文词“提案”可以被正确地转换。应当指出,在本专利技术中,同音字的总数可能增加。这是因为由于省略声调符号,具有相同声母、介母和韵母但是声调不同的许多汉字变为同音字。例如,当注音符号“ㄙㄨㄥ”被输入,“松”和“送”变为同音字。当注音符号“ㄅ乀丩一ㄥ”被输入时,“北京”和“背景”变为同音字。没有声调的音节的总数为409个。由用户从多个同音字/词选择正确的字/词的操作可以通过中文语法和语意处理的加强而减少,以自动地选择具有最高优先级的字/词。由于本专利技术的目的是省略声调符号的输入,因此,在有许多同音字/词的情况下,用户可以选择输入声调符号,并且在字的声调不清楚或者为了减少按键操作的情况下,选择不输入声调符号。下文是没有声调符号的输入注音符号的实例。 同上述实例,可以看出能够容易地识别一个音节。另一方面,“ㄙㄨㄥ”可以被分为“ㄙ”和“ㄨㄥ”,“ㄒ一ㄚ”可以被分为“ㄒ一”和“ㄚ”,“ㄉ一ㄢ”可以被分为“ㄉ一”和“ㄢ”,“ㄕㄨ”可以被分为“ㄕ”和“ㄨ”,“一ㄡ”可以被分为“一”和“ㄡ”,“ㄒ一ㄢ”可以被分为“ㄒ一”和“ㄢ”。但是,根据本专利技术,上述连续注音符号的每个组被作为一个音节看起来是正确的。为了克服上述问题,本专利技术提供一种没有声调符号输入的汉字转换装置,其中没有声调符号输入的汉字转换装置包括用于存储多个声母、介母、韵母和声调的符号的注音符号存储单元;用于存储多个音串和相应的汉字和词的词典;音节切出单元,所述音节切出单元用于根据声调符号或空格键从输入注音符号行切出注音符号以形成音节,如果没有输入声调符号或空格键,所述音节切出单元根据在所述注音符号存储单元中的声母、介母和韵母的排列规则从输入注音符号行切出注音符号,以形成音节;转换初始化单元,其用于根据从所述音节切出单元获得的音节和由从所述音节切出单元获得的音节所构成的音串以及以前输入的音节设置转换开始位置和转换长度;转换处理单元,其用本文档来自技高网...

【技术保护点】
一种没有声调符号输入的汉字转换装置,其中包括:用于存储多个声母、介母、韵母和声调的符号的注音符号存储单元;用于存储多个音串和相应的汉字和词的词典;音节切出单元,其根据声调符号或空格键把一个输入注音符号行切为至少一个音节,如果没有 输入声调符号或空格键,所述音节切出单元根据在所述注音符号存储单元中的声母、介母和韵母的可接受的排列次序把输入注音符号行切为所述音节;转换初始化单元,其用于根据从所述切出的音节和以前输入的音节合成所需音串,然后设置在该合成串中的转换开始位 置和转换长度;转换处理单元,其用于根据设置的所述转换开始位置和所述转换长度重复地调节由所述转换开始位置和所述转换长度所构成的所述音串;词典搜索单元,其用于用来自所述转换处理单元的音串作为搜索关键字在所述词典中搜索汉字;音节编辑单 元,其可由用户所操作来纠正由于音节切音单元造成的错误而从所述词典中搜索的所述汉字;以及同音字/词搜索单元,其可由用户所操作以选择除了由于同音字/词的自动判断错误而从词典中搜索的所述中文字/词之外的正确中文字/词。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:林启轩
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1