汉字/拼音/英文翻译方法技术

技术编号:2867352 阅读:296 留言:0更新日期:2012-04-11 18:40
公开一种在简体中文字、繁体中文字、拼音字和英文字之间翻译的方法。本发明专利技术包括翻译器程序(TP)。TP接受以Big5、GB2312、ASCⅡ或任何Unicode编码方案的字符或字,并且将所述字符或字翻译为Unicode。TP按照要求将用户输入翻译为繁体中文字、简体中文字、带有音调的拼音字、英文字。TP然后显示繁体中文字、简体中文字、带有音调的拼音字、英文字。如果输入的字符是繁体中文字并且没有相应简体中文字,则TP显示一个消息来指示繁体中文字没有相应简体中文字。

【技术实现步骤摘要】

本专利技术涉及一种用于在简体中文字、繁体中文字、拼音和英文之间翻译的方法。
技术介绍
诸如汉语的基于汉藏语系的语言与诸如英语的基于拉丁语系的语言有很大不同。中文不包括字母表。相反,中文包括超过6万个独立汉字。6万个汉字的每个具有不同的含义。认识大约1200个汉字就足够阅读中文报纸。中文学院毕业生认识大约3000个汉字。中文在字的概念上也与基于拉丁语系的语言不同。在中文中,汉字串不包括空格,一个字结束和另一个开始的理解完全基于上下文。汉字在含义、发音和在它们被书写的方式上非常准确。如果一个汉字在串中向其插入汉字,则增强了第一个汉字的含义,但是通常它不被改变。汉字总是发单个音节。没有两音节的汉字。每个汉字具有5个基音之一。这5个基音为中文带来了歌唱的质量,因为一些汉字以高音调发音,一些以低音调发音,一些以升调或降调发音。音调对语言是重要的,没有音调,中文将不容易被理解。例如,汉字“ma”根据音调可以或者表示“妈”或“马”或“吗”。在中国有许多方言。从一种方言到另一种方言,口语基本上不可理解。但是,仅仅有一种中文文字。中文文字被所有的方言理解。其它汉藏语系语言,诸如日文、韩语和越南语与中文一样使用多个字符。但是,这些语言没有共同的书写或口语含义,这类似于英语、西班牙语和法语使用公共的字母表但是不可互换的方式。在1949年中国共产革命之后,共产党对中文作出了几个改变。首先,传统的“从上向下”和“从右向左”的书写中文的方法被屏弃。中华人民共和国(PRC或中国大陆)现在按照西文,“从左向右”然后“从上向下”被书写。其次,选择了单一的方言普通话,它现在在所有的学校中作为基本中文被教授。第三,PRC改变了大约四分之一的汉字以将它们减少到大约几行或几划。这种形式的中文被称为“简体中文”。在PRC,简体中文现在被广泛使用,但是台湾和香港仍然使用称为“繁体中文”的更费事形式的中文。PRC也采用由多数西方国家使用的阿拉伯数字系统,并且因特网的出现正在使得英语出现在许多中文语句中。PRC也引入了“拼音”,中文的语音版本来帮助孩子学习这种语言。拼音使用英文的26个字母外加在一些元音上的4个音调来指示如何发音汉字。当学生被教授使用汉字时通常从大约4岁到大约7岁使用拼音。拼音对于从外语常用语手册来说汉语的旅游者和商人也是很有益的。另外,拼音对于计算机用户是普及的,因为它是从键盘输入汉字的最简单方式。在计算机中,所有的汉藏语系语言被16比特的字符表示,而英语和拉丁语系语言被8比特的字符表示。传统上,从每种语言产生独立的编码。英语和其它拉丁语系语言使用ASCII编码。简体中文使用GB2312编码。繁体中文使用Big 5编码,等等。换句话说,使用Big 5编码的计算机不能读取GB2312或ASCII编码的计算机代码。这种编码的多样性是混乱的,并且在不同的编码之间没有标准化。Unicode协会已经开发了一种单一的编码,它并入了世界上所有的主要语言。存在使用Unicode和替代在计算机应用中的所有其它编码的强大动向。Unicode对于在计算机内的每个字符使用16个比特。Unicode具有65,000个不同的字符,并且每种主要语言被映射为这个Unicode范围的不同部分。因此,Unicode可以用作所有的世界语言的单一编码方案。但是,Unicode的问题之一是可以使用在Unicode内不同的方案来表示独立的字符、字母或符号。两种最常见的编码方案是UTF-8和UCS-2。UTF-8是二进制(基于2)Unicode编码方案,它将每个字符、字母或符号表示为一个、两个或三个字节,每个字节为8个比特。相反,UCS-2是16进制(基于16)的Unicode编码方案,它将每个字符、字母或符号表示为8个16进制数字。一个16进制数字等同于4个比特,1个字节可以由两个16进制数字表达。下面的表1显示在UTF-8和UCS-2之间的差别。 表1用户可以根据用户期望的需要来选择使用USC-2方案或UTF-8方案来编码。例如,当从一个位置向另一个发送数据时,由于在可变字节流长度(即,1-3字节,如表1所示)中固有的发送效率,UTF-8是优选的编码方案。但是,当在数据库中存储同一信息时,UCS-2是优选的编码方案,因为均匀的数据长度使得可以进行较快的搜索和比较操作(即8个16进制数字,如表1所示)。在UCS-2和UTF-8之间的转换功能是可以获得的,这由在此通过引用而被并入的、题目为“在数据库引擎中的表级Unicode处理”的美国专利申请公布2003/0078921来证明。在开发Unicode之前,在简体中文和繁体中文之间的计算机化的文字翻译器是不可能的,因为GB2312代码不能明白Big 5代码,反之亦然。需要从简体中文向繁体中文的翻译或从繁体中文向简体中文的翻译的用户被迫查找在印刷的字典中的翻译。如果用户期望计算机实现的翻译,则用户被迫使用拼音、英文或一些其它的语言来作为在简体中文和繁体中文之间的中介。类似地,现有技术的翻译程序还不能使用正确的音调来显示拼音。带有音调的元音指示适当的音调,是正确地发音元音所必须的。在计算机中,传统上使用ASCII来编码拼音。但是,现有技术的翻译程序不能显示带有音调的拼音,因为ASCII不与Big 5或GB2312兼容。相反,现有技术程序利用由Big 5和GB2312支持的数字和英文元音来产生拼音的混合版本。例如,现有技术已经采用了数字来说明四种类型的音调和无音调。表2显示了现有技术在拼音中使用数字来表示音调。 因此,现有技术将字guó显示为guo2,将mā显示为ma1,等等。拼音的现有技术混合版本对于开始的读者难于明白,因为读者必须作出在数字和音调的正确类型和位置之间的认知跳跃。因此需要一种在简体中文、繁体中文、拼音和英文之间翻译的自动方法。这个需要延伸到用于以正确的音调标记来显示拼音的方法。
技术实现思路
本专利技术是用于在简体中文字、繁体中文字、拼音字和英文字之间翻译的方法。本专利技术的软件实施例是可以在万维网网页上工作的计算机程序或作为在独立计算机上的程序的计算机程序。本专利技术的软件实施例包括翻译机程序(TP)。TP接受Big 5、GB2312、ASCII或任何Unicode编码方案的字符或字,并且将所述字符或字翻译为Unicode。TP然后确定是否用户输入是繁体中文字、简体中文字、拼音或英文字。TP按照需要将用户输入翻译为繁体中文字、简体中文字、带有音调的拼音字和英文字。TP使用简体中文/繁体中文转换表来在简体中文字和繁体中文字之间翻译。TP也使用繁体中文/拼音/英文字典来在繁体中文字、拼音和英文之间翻译。TP然后显示简体中文字、繁体中文字、带有音调的拼音字和英文字。如果被输入的字符是繁体中文字并且没有相应简体中文字,则TP显示一个消息来指示繁体中文字没有简体中文字的等同物。附图说明在所附的权利要求中给出了相信具有新颖性的特征。但是,通过下面结合附图详细描述说明性的实施例,本专利技术本身以及优选使用方式、另外的目的及其优点将最佳地被理解。图1是用于实现本专利技术的计算机网络的图示;图2是用于实现本专利技术的存储器的图示;图3是本专利技术的翻译器程序(TP)的逻辑的图示;图4是本专利技术的图形用户界面(GUI)的图示。具体实施例方式在此使本文档来自技高网
...

【技术保护点】
一种方法,包括:使用Unicode来确定简体中文字的相应繁体中文字;使用Unicode来将简体中文字翻译为带有音调的拼音字和英文字。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:陈彦甫约翰W邓斯莫伊尔
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1