模糊汉字变换装置制造方法及图纸

技术编号:2892306 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种对于字音类似的汉字序列进行有效的模糊变换处理的中文文字处理机用模糊汉字变换装置。中文文字处理机中包括:对于含糊字音符号或其中字音符号可能为含糊字音符号的字音符号序列存储与这些相应字音符号序列的模糊辞书;指定含糊位置以及可能检出字数的模糊范围指定部;对于模糊范围指定部指定位置上相应的每个字音符号序列,从模糊辞书检出相应字音符号序列的模糊信息检出部。(*该技术在2013年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及中文文字处理机,特别涉及处理输入含糊字音的汉字变换装置。中文原则上一个汉字与一个字音对应。字音由声母、韵母以及声调构成,而韵母细分为介音和主韵母,因而最终是由声母+介音+主韵母+声调的组合构成的。另外对于声母、介音,原先稍大一些的汉和辞典中也记载着中国话的入门书,因而省略这些说明。又,在中文文字处理器中假如输入了表示这些字音的符号,一个汉字的读音就输入完毕了。这里,中文中的汉字(有“ ”等作为日本国字用而在中文不用的汉字,中文中与日文相同也有在文章中用汉字以外的文字和符号的情况,也有单词特别是固有名词的特殊情况、中文固有的简化字、假名汉字等,这里所称的“汉字”,严格来说不仅限于“日语中所称的汉字”。所谓的概念是以中文文章中的汉字为中心的文字、符号或文字序列、单词的,原则上都称为“汉字”。)读音符号由中国台湾所用的注音符号表示,主要如图6中所示,包含声母、介音、主韵母以及声调共计有四十二个。(另外,除此之外现在较常用的汉字读音符号有中国大陆的罗马拼音字母作为第二类注音符号)。本专利技术涉及一种由该注音符号(权利要求书中所述的“字音符号”的一种)表示全部读音的文字处理机。但中文发音由于国土辽阔、人口众多,而且生活环境和历史渊源大相径庭,因而常常有无法由汉字读音符号表达或不统一的情况。其原因在于不仅仅是单独使用的汉字种类多,说起来中国话本身也可大致分作北京话、广东话五种之多,还有这种原因,即不用说日本人就是马拉尔语族、阿尔泰语族人也难以听清L与R的音,或是日本语中有方言而且意义及其发音有较大差异。因而,例如卷舌声母“图7中所示的{外1}(由于电子信息处理系统,文字处理机输入都有限制,因而下面本说明书中所用的中文固有的外字、发音符号如“图7{外1}”、“图7{外2}”所记载的那样集中在图7中图示)由于发音类似,容易与不卷舌声母“图7{外2}”混淆,主韵母“图7{外3}”同样容易与“图7{外4}”混淆。因此必须进行模糊处理。以往汉字变换装置的模糊处理有台湾专利75105839中所记载的汉字变换装置。图5(a)是该装置的框图。图5(a)中,10是有指定表音文字以及辞书检索方式的辞书检索方式键的输入部,11是将可由输入部送来的表音文字序列变换为音节符号的音节符号变换部,12是将可由音节符号变换部11送来的音节符号按各变换单位适至下面说明的辞书检索部13,并由使用者选择由辞书检索部13送来的候补单词,而将判断为最终对应的候补单词送至输出部15的汉字变换部,13是根据可由输入部送来的辞书检索方式的指定而从下面说明的辞书14取出候补单词的辞书检索部,14是存储有各组用音节符号表示的中文单词读音和与该单词对应的汉字代码的辞书。以下对上述构成的汉字变换装置内部处理中所用的音节符号加以说明。图5(b)中示出分别分配给各个声母、介音、主韵母、声调的位组合。这些位组合由2字节定义。第1、第2字节其最初的位(bit0)都是0,结合韵母的位组合则由介音与主韵母的位组合的组合来表示。例如“图7{外5}”、“图7{外6}”、“图7{外7}”、“图7{外8}”等类似的同音韵成份的位组合间距离为1。即,忽略第1字节的bit5、bit7、等2字节的bit7就可将分别类似的声母、介音、主韵母视为相同。图5(a)中所示的是该以往例中的同音韵成份的位组合相距为1,并且容易混淆的24组音韵成份。输入者设定模糊变换的时候,在借助于检索方式键检索辞书时,忽略辞书中登记的单词读音各音节的第1字节的bit5、bit7、第2字节的bit7,检出相关模糊汉字系或相类模糊单词系。(但在程序编制上则不是忽略而是注意这些位)。例如,使用者想要输入“图7{外9}”时,若按下为忽略介音以及声调而设置的键时,就检出“图7{外10}”、“图7{外11}”等。然而,上述已有技术的装置有以下问题。不过在冒然以中文为例具体说明该问题之前,先以容易理解的日文为例作概括的说明。日文中表示为“こう”假名的汉字有“考”、“公”、“皇”、“光”之多,表示为“こうめん”假名的单词也有“考案”、“公案”、“公安”等几个。还有称为“田”的汉字,是根据前后文字或汉字而有多种读音方式,例如“美田”发音为“でん”、“田”发音为“だ”、或是“田烟”发音为“た”等。还有相反情况,虽然种类少且使用频度也不太高,但如“ぢ”与“じ”那样,对于相同发音也有多个假名。可是,这些毕竟还是音节文字的“假名”与表意文字的“汉字”的对应,而且在悠久的传统中被自然地给予对应,因而还容易处理。现在,用日文文字处理机例如用假名输入为“こぅ”时,在CRT上就顺序地或一起显示含有该音的汉字,通过选择输入者所需文字的办法顺利地处理。但是,要形成以实际话音状态作为基准的“音素文字”与“汉字”的对应关系就变得相当复杂。即;前述的“考”、“公”等由作为音素文字的字母通过英美式发音、拼读,因人而异而可能是时而为“KOU”,时而为“KOO”,而其他词、汉字也无法避免这种情况。例如“靴”,仅对该词发音时为“KUTSU”,而在“ずい、靴を持って来い。”等前后有语句时通常是发音为“KTSU”,“U音被省略。而且通常人是不会发觉的。至于如“云”与“蜘蛛”那样语调的不同,假使打听人们,大多数人对拼读指点(回答)都是犹豫的。而且该强调部分也随前后单词的不同而复杂地变化。而且除此之外还有方言。为此,假如不用音节文字的“假名”,而是要以实际话音状态为基准使用作为音素文字的“字母”与语调,极正确地输入日文文章的话,即使在表示“东京”这类常用的地名时,也有‘TOOKYOO”、“TOUKYOU”、“TOKIO”之多,带来相当的困难。可是在中文中,就输入手段而言,由于不存在靠悠久传统自然给予对应的作为音节文字的“假名”,而且方言也有较大差异,而且所谓的语调(中文语调)起着重要的作用,因而不得不采用相应于前述发音符号与语调的注音符号,但除此之外还有所用的注意符号、汉字的种类都较多的情况,故文字处理机正确的汉字变换有很大困难。以下,根据中文具体地说明。第1问题点,由于仅仅是考虑图5(b)所示的单一含糊情况,假如是中文中字音多重近似情况、单一字音的话,则虽然不是含糊的,但因与其他字音的关系而变得含糊,而且这时因一对一关系而变为含糊时就无法处理未加限定的现象。例如,字音符号“图7{外12}”容易与“图7{外13}”混淆。但是“图7{外14}”与“图7{外15}”在已有例中不是相似音韵的,因而按已有的变换方式是无法进行模糊处理的。还有,例如字音符号“图7{外16}”容易与“图7{外17}”、“图7{外18}”、“图7{外19}”相混淆。但是按上述已有例中忽略对应位的方式,是无法同时进行模糊处理的。第2问题点,由于根据音节符号的配置位置控制模糊变换方式,因而使用当中不方便。例如,特定使用者容易将字音符号“图7{外16}”与“图7{外19}”相混淆。已有的音节符号配置方式中没有设想到相离位置的字音有时变为不确定,有时出现不含糊字音的情况,而且使用者本人也无法通过设定其位置来应付。由于上述2个问题点,故而可以说已有技术的模糊汉字变换装置其实用价值不见得高。本专利技术正是鉴于以上问题,其目的在于提供一种可有效应付多重复杂的含糊情况的模糊汉字变换装置。为达到上述目的本文档来自技高网...

【技术保护点】
一种模糊汉字变换装置,用于中文文字处理机,该文字处理机包括输入字音符号的输入部,将该输入部输入的字音符号或字音符号序列依据内置的辞书变换为有该字音的汉字或汉字序列的变换部,其特征在于模糊汉字变换装置包括:对于每个字音符号或其中字音符号可 能为含糊字音符号的字音符号序列,存储与这些相对应字音符号或字音符号序列的模糊辞书;对于所述变换部变换出的汉字或汉字序列指定含糊位置以及可能检出字数的模糊范围指定部;对于每个与所述模糊范围指定部指定的含糊位置内的汉字或汉字序列相应的字 音符号或字音符号序列从所述模糊辞书检出与这些相对应的字音符号或字音符号序列的模糊信息检出部;将所述模糊信息检出部检出的全部相对应字音符号或字音符号序列送到前述变换部,执行向这些字音符号或字音符号序列所对应的汉字或其字数在所述模糊范围指定 部指定的可能检出的范围内的汉字序列变换的变换控制部;可以从借助于所述变换控制部的作用而由所述变换部变换出的汉字或汉字序列当中选择输入者所要的汉字或汉字序列的选择部。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:林启轩张家华
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1