当前位置: 首页 > 专利查询>西门子公司专利>正文

按单音节划分中文词的方法与装置制造方法及图纸

技术编号:2893927 阅读:364 留言:0更新日期:2012-04-11 18:40
借助于拉丁字母作拼音字母组成的词实现输入中文字符.中文词是由音节组成的.这些音节中的每个再重新转化成中文字符.词即为一个或多个字符组成的字列,由此也是一个或多个音节组成的排列.在利用拼音字母组成词输入时将这个字母列与存储在存储器(SP)中音节相比较并自动地按音节将其划分,在这里如果其字母既可以编入正在观察的一个音节中,又可以编入下一个音节中时总是将它们编入正在观察的这个音节中.为了继续地进行处理,对音节配置了音节识别号并且每个词编译成一个由音节识别号组成的单义数列.(*该技术在2006年保护过期,可自由使用*)

【技术实现步骤摘要】
本专利技术涉及到在一个终端装置上输入中文字符的方法,在该终端装置上利用拉丁字母作为一种拼音字符输入由中文字符组成的中文词。此外还涉及到用于实施这种方法的一种设备。众所周知的是借助于用可打字的拼音符号组成的词利用键盘输入中文字符。利用这种拼音符号即可按拉丁字母的排列输入一种与发音符号相似的音节。中文词由音节组成,每一个音节是由一个首音及一个尾音组成的。由此形成了大约410个不同的音节,它们中每一个由可能出现的25种首音中的一个及34种尾音中的一个组成的。每个音节利用与该音节对应存储的多个字符(同音字符)中的一个字符翻译成中文字。因此词即为一个或几个字符组成的字列或是由一个或多个音节组成的音节的排列。可以想象,用键盘输入这些中文字符,这种键盘分作二层设置,在第一层中包含了首音而在第二层中包含了尾音。由一个打印字向另一个打印字的转换能够自发地实现,因为每次首音与尾音总是交替地输入的。一般来说,词与词的划分是利用击空格键形成的,而词按音节进行划分已经没有困难,因为每击两次键就编成一个音节。如果中文字符借助于具有拉丁字母的国际通用键盘使用能打字的拼音符号进行输入的话,则以单个音节进行词的简单划分是不能直接地作到的,因为首音是由零至二个字母组成的,尾音是由一至四个字母组成的。本专利技术是以下述任务为基础的即确定出一种方法与设备,借助于它们就可以使应用能以键盘打印的拼音符号输入的中文词能够按单个音节自动地进行划分。这个涉及上述技术方法的专利技术任务根据本专利技术以下列方式来实现即当使用了一个具有拉丁字母的国际通用键盘(TA)输入了每个拼音字母以后,将输入的字母列与在一个存储器(SP)中存储的音节相比较,即可自动地将词按音节划分开,在这里,如果字母既可以编入正在观察的音节中又可以编入下一个音节中时,则总是将它编在正在观察的音节中。按照本专利技术的方法具有这样的优点对现有的国际通用键盘不用作任何改动即可用来输入中文字符,并且这种输入方式需要的服务费用低。为了避免以音节划分词所产生的多义性,在每个可能出现多义性的位置上引入分割符号可以解决此问题。例如,这些分割符号是符号“′”或符号“-”。为了进行继续的文字处理,对每一个音节分配一个音节识别号,并且将词编译成一个单义的识别号数列。这些音节识别号按照本专利技术的方法是相对按字母顺序排列形成的音节进行编号的。用于实施上述方法的有效设备具有下列特征在其中设置了存储所有的通用音节的存储器;以及一个控制单元,它在每输入了一个字母后,即将其与存储器中存储的音节进行比较,以校验这些字母是否能单义地作为单音节加以识别,否则总是继续观察随后的字母,其目的是为了按音节划分词。为了实现本专利技术,控制单元具有这样的功能即当输入了一个分割符号以后,该控制单元即将刚输入的最后一个音节与后面的字母分隔开来。为了进一步地进行处理,针对音节在存储器中分配了音节识别标志,并且当确定了意义存在的单音节时控制单元从存储器中读出所属的音节识别标志。在存储器中存储的音节识别号是与按字母顺序排列出现的音节相对应的。以下将根据附图详细地解释本专利技术的方法及实施该方法的设备。其附图为图1实施本专利技术方法用的设备框图。图2通过中文字符对三个词的描述。图1中所示的设备中包含了一个键盘TA,它实际上是用以输入拉丁字母的键及用以输入数字的键构成的国际通用键盘。该键盘TA与一个控制单元ST相联接,在这个控制单元中最好包括一个或几个微处理机。这个控制单元ST又与一个存储器SP相联接,该存储器中存有410个以字母表示的并以二进制数字编码的中文音节。另外在这个存储器SP中还附设了相对于音节分配的音节识别号,它们是与按字母顺序排列形成的音节相对应的。该控制单元ST进而又和一个包括图象显示屏BS的显示单元AE相联接,并且也可与一个打印机DR相联接。最后控制单元ST还和一个处理单元VE相联接,音节识别号传送到该处理单元,它是一个与上述部分相联接的一个电文系统的终端装置,一个打印或记录装置,一个计算机或者与长途电缆FL相联接的长途通信终端装置。特别的是在处理单元VE中还设置了用于执行将一列音节翻译成中文字符的一些装置,因为对每一个音节来说总是有多个中文字符与之对应地配置,这些中文字符的发音相同或者至少它们是用同样的拼音字母表示的。借助于键盘TA,中文词就可以利用拼音字母输入,并且控制单元ST借助于存储器SP自动地以单音节方式划分输入的词及对这些音节分配音节识别号,然后这些音节识别号再由控制单元传送给处理单元VE。为了进行控制操作,这些输入的词和/或音节和/或音节识别号和/及对应的中文字符均能在图象显示屏BS及打印机DR上输出来。每一个音节由25种可能出现的首音之一及可能出现的34种尾音之一组成的,并且首音可能由零至二个字母组成,尾音可能由一至四个字母组成。借助于控制单元ST及存储器SP在输入了词的情况下该词所对应的音节就可自动地求得,在那里,总是将输入的字母列每次总是与存储在存储器SP中的音节进行比较,并且如果单义地识别出一个单音节时即将也是存储在该存储器中的该音节识别号提供出来,再将该音节识别号送到处理单元VE,所输入的字母,如果它们既可能编排在这个正在为观察的音节中,又有可能编入下一个音节中,这时总是将它们编排到这个正在观察的音节中去。在存储器SP中存储的音节是按照字母顺序的排列储存的,并且每个音节编排在一个自1至410上升排列的数列之中。音节识别号对应于音节的分配表简要地表示在表1上,而表2则是反过来表示音节对应于音节识别号的分配表。(表见下页) 如果,例如通过拼音字母输入中文词“babaocai”,控制单元ST将在输入字母b后,校验是否已经具备了一个完整的音节,因为根据表1及表2的分配表字母“b”并不能构成一个音节,于是在输入了第二个字母“a”后重新进行校验是否能被单义地识别为一个音节。在现在这种情况下还是没有可能决定的,因为虽然音节“ba”是以识别号6存储的音节,但是还有可能在其后跟随其它的字母,以致于它可能仅是属于音节“bai”,“ban”,“bang”或者“bao”的一部分。直至再下一个字母“b”输入后该控制单元ST才可以进行识别,因为在存储器SP的分配表中没有出现“bab”这个音节,这样就得到了第一个音节为“ba”。这个音节即被标志为完整音节并且将其配置上音节识别号6。当在第三个字母“b”后面输入下一个字母“a”后,又一次地进行校验是否是一个完整的音节,在这种情况下还必须等待下一个字母的输入。再当输入下一个字母“o”后,该控制单元即识别出这是一个完整的音节“bao”,因为在存储器SP的分配表中没有以“bao”开头的其它音节。因此这个音节也作为完整的音节并且根据表1或表2的分配表将音节识别号10提供出来。在输入下一个字母“c”后也不能识别出一个音节来,再输入随后的字母“a”后还是不能单义地识别出一个音节来,因为它有可能关系到音节“ca”,“cai”,“can”,“cang”或“cao”。只当输入了最后一个字母“i”后,便可单义地识别出音节“cai”,并且相应地在分配表中配置了识别号23。在表1的分配表中音节是相对应于字母顺序排列的并且在自1至410上升排列的数列中被编上号。而在表2的分配表中第一列中填入的是尾音,它们是以元音字母开始的,在第二列本文档来自技高网...

【技术保护点】
在一个终端装置上输入中文字符的方法,在该终端装置上利用拉丁字母作拼音符号输入由中文字符组成的中文词,其特征在于:利用具有拉丁字母的国际通用键盘输入了每个拼音字母后,将已输入的字母列与存储器(SP)中存储的音节作出比较,中文词将以单音节自动地划分开来,在其中其字母如果既可以编入正在观察的一个音节中,又可以编入下一个音节时,总是将它们编入到每次在观察中的音节中去。

【技术特征摘要】
DE 1985-2-15 P3505291.01.在一个终端装置上输入中文字符的方法,在该终端装置上利用拉丁字母作拼音符号输入由中文字符组成的中文词,其特征在于利用具有拉丁字母的国际通用键盘输入了每个拼音字母后,将已输入的字母列与存储器(SP)中存储的音节作出比较,中文词将以单音节自动地划分开来,在其中其字母如果既可以编入正在观察的一个音节中,又可以编入下一个音节时,总是将它们编入到每次在观察中的音节中去。2.根据权利要求1的方法,其特征在于当以拼音字母输入词时在输入了两个音节间的一个分割符号后,则前面的音节即被标志成完整的音节。3.根据权利要求2的方法,其特征在于利用符号“′”及符号“-”作为分割符号。4.根据权利要求1至3中的一个权利要求的方法,其特征在于对于每个单义...

【专利技术属性】
技术研发人员:乔基姆海因策尔
申请(专利权)人:西门子公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1