繁体中文字/简体中文字翻译方法技术

技术编号:2866132 阅读:440 留言:1更新日期:2012-04-11 18:40
一种将简体中文字翻译为繁体中文字以及将繁体中文字翻译为简体中文字的方法被公开。本发明专利技术包括字符转换程序(CCP)。CCP接受以Big5、GB2312、ASCⅡ或任何Unicode编码方案的字符,并且将所述字符翻译为Unicode。如果输入的字符是简体中文字,则CCP确定相应繁体中文字。如果输入的字符是繁体中文字,则CCP确定相应简体中文字。CCP然后显示输入的简体中文字和相应繁体中文字,或反之亦然。如果输入的字符是繁体中文字并且没有相应简体中文字,则CCP显示一个消息来指示繁体中文字没有相应简体中文字。

【技术实现步骤摘要】

本专利技术涉及一种用于将简体中文字翻译为繁体中文字以及将繁体中文字翻译为简体中文字的方法。
技术介绍
诸如汉语这样的基于汉藏语系的语言与诸如英语这样的基于拉丁语系的语言有很大不同。中文不包括字母表。相反,中文包括超过6万个独立汉字(character)。6万个汉字的每个具有不同的含义。认识大约1200个汉字就足够阅读中文报纸。中文学院毕业生认识大约3000个汉字。中文在词(word)的概念上也与基于拉丁语系的语言不同。在中文中,汉字串不包括空格,一个词结尾和另一个词开头的理解完全基于上下文。汉字在含义、发音和在它们被书写的方式上非常准确。如果以串形式向一个汉字添加汉字,则增强了第一个汉字的含义,但是通常它不被改变。汉字总是发单个音节。没有两音节的汉字。每个汉字具有5个基音之一。这5个基音为中文带来了歌唱的质量,因为一些汉字以高音调发音,一些以低音调发音,一些以升调或降调发音。音调对语言是重要的,没有音调,中文将不容易被理解。例如,汉字“ma”根据音调可以表示“妈”或“马”或“吗”。在中国有许多方言。从一种方言到另一种方言,口语基本上不可理解。但是,仅仅有一种中文文字。中文文字被所有的方言理解。其它汉藏语系语言,诸如日文、韩语和越南语与中文一样使用多个字符。但是,这些语言没有共同的书写或口语含义,这类似于英语、西班牙语和法语使用公共的字母表但是不可互换的方式。在1949年中国共产革命之后,共产党对中文作出了几个改变。首先,传统的“从上向下”和“从右向左”的书写中文的方法被屏弃。中华人民共和国(PRC或中国大陆)现在按照西文,“从左向右”然后“从上向下”进行书写。其次,选择了单一的方言普通话,它现在在所有的学校中作为基本中文被教授。第三,PRC改变了大约四分之一的汉字以将它们减少到大约几行或几划。这种形式的中文被称为“简体中文”。在PRC,简体中文现在被广泛使用,但是台湾和香港仍然使用称为“繁体中文”的更费事形式的中文。PRC也采用由多数西方国家使用的阿拉伯数字系统,并且因特网的出现正在使得英语出现在许多中文语句中。PRC也引入了“拼音”(中文的语音版本)来帮助孩子学习这种语言。拼音使用英文的26个字母外加在一些元音上的4个音调来指示如何发音汉字。当学生被教授使用汉字时通常从大约4岁到大约7岁使用拼音。拼音对于从外语常用语手册来说汉语的旅游者和商人也是很有益的。另外,拼音对于计算机用户是普及的,因为它是从键盘输入汉字的最简单方式。在计算机中,所有的汉藏语系语言被16比特的字符表示,而英语和拉丁语系语言8比特的字符表示。传统上,为每种语言产生独立的编码。英语和其它拉丁语系语言使用ASCII编码。简体中文使用GB2312编码。繁体中文使用Big 5编码,等等。换句话说,使用Big 5编码的计算机不能读取GB2312或ASCII编码的计算机代码。这种编码的多样性是混乱的,并且在不同的编码之间没有标准化。Unicode协会已经开发了一种单一的编码,它并入了世界上所有的主要语言。存在使用Unicode和替代在计算机应用中的所有其它编码的强大动向。Unicode对于在计算机内的每个字符使用16个比特。Unicode具有65,000个不同的字符,并且每种主要语言被映射为这个Unicode范围的不同部分。因此,Unicode可以用作所有的世界语言的单一编码方案。但是,Unicode的问题之一是可以使用在Unicode内不同的方案来表示独立的字符、字母或符号。两种最常见的编码方案是UTF-8和UCS-2。UTF-8是二进制(基数2)Unicode编码方案,它将每个字符、字母或符号表示为一个、两个或三个字节,每个字节为8个比特。相反,UCS-2是16进制(基数16)的Unicode编码方案,它将每个字符、字母或符号表示为8个16进制数字。一个16进制数字等同于4个比特,1个字节可以由两个16进制数字表达。下面的表1显示在UTF-8和UCS-2之间的差别。 表1用户可以根据用户期望的需要来选择使用USC-2方案或UTF-8方案来编码。例如,当从一个位置向另一个发送数据时,由于在可变字节流长度(即,1-3字节,如表1所示)中固有的发送效率,UTF-8是优选的编码方案。但是,当在数据库中存储同一信息时,UCS-2是优选的编码方案,因为均匀的数据长度使得可以进行较快的搜索和比较操作(即8个16进制数字,如表1所示)。在UCS-2和UTF-8之间的转换功能是可以获得的,这由在此通过引用而被并入的、题目为“在数据库引擎中的表级Unicode处理”的美国专利申请公布2003/0078921来证明。在开发Unicode之前,在简体中文和繁体中文之间的计算机化的文字翻译器是不可能的,因为GB2312代码不能明白Big5代码,反之亦然。需要从简体中文向繁体中文的翻译或从繁体中文向简体中文的翻译的用户被迫查找在印刷的字典中的翻译。如果用户期望计算机实现的翻译,则用户被迫使用拼音、英文或一些其它的语言来作为在简体中文和繁体中文之间的中介。因此,需要用于在繁体中文和简体中文之间直接翻译的自动方法。类似地,需要一种用于利用Unicode在简体中文和繁体中文之间翻译的计算机化方法。
技术实现思路
本专利技术是用于将简体中文字翻译为繁体中文字以及将繁体中文字翻译为简体中文字的方法。本专利技术的软件实施例是可以在万维网网页上工作的计算机程序或作为在独立计算机上的程序的计算机程序。本专利技术的软件实施例包括字符转换程序(CCP)。CCP接受Big 5、GB2312、ASCII或任何Unicode编码方案的字符,并且将所述字符翻译为Unicode。CCP然后确定是否所述字符是繁体中文字或简体中文字。如果输入的字符是简体中文字,则CCP使用简体中文/繁体中文转换表来确定相应繁体中文字。如果输入的字符是繁体中文字,则CCP使用简体中文/繁体中文转换表来确定相应简体中文字。CCP然后显示输入的简体中文字和相应繁体中文字,或显示输入的繁体中文字和相应简体中文字。如果被输入的字符是繁体中文字并且没有相应简体中文字,则CCP显示一个消息来指示繁体中文字没有简体中文字的等同物。附图说明在所附的权利要求中给出了相信具有新颖性的特征。但是,通过下面结合附图详细描述说明性的实施例,本专利技术本身以及优选使用方式、另外的目的及其优点将最佳地被理解。图1是用于实现本专利技术的计算机网络的图示;图2是用于实现本专利技术的存储器的图示;图3是本专利技术的字符转换程序(CCP)的逻辑的图示;图4是本专利技术的图形用户界面(GUI)的图示。具体实施例方式在此使用的术语“Big 5”指的是用于繁体中文字集的编码语言。在此使用的术语“计算机”指的是能够与用户或其它计算机交互的、包括处理器、存储器和操作系统的机器,应当包括但不限于台式计算机、笔记本计算机、个人数字助理(PDA)、服务器、手持计算机和类似的器件。在此使用的术语“GB2312”指的是用于简体中文字集的编码语言。在此使用的“Unicode”指的是由Unicode协会开发的编码语言,包括世界上多数语言,其中包括简体中文字集和繁体中文字集。图1是与本专利技术相关联的计算机网络90。计算机网络90包括与网络96电子连接的本地机器95。本地机器95经由网络96电子本文档来自技高网
...

【技术保护点】
一种方法,包括:使用Unicode来确定简体中文字的相应繁体中文字。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:陈彦甫约翰W邓斯莫伊尔
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有1条评论
  • 来自[北京市联通互联网数据中心] 2014年12月08日 00:32
    [1]繁体字指汉字简化后被简化字又称简体字所代替的原来笔画较多的汉字那些未被简化的字则称为传承字中华人民共和国国家通用语言文字法以法律形式确定普通话和规范汉字包括简化字和传承字作为国家通用语言文字的地位同时对方言繁体字和异体字作为文化遗产加以保护并允许在一定领域和特定地区内长期存在非汉字文化圈的欧美国家将繁体字称作TraditionalChinese传统中文而简化字则称作SimplifiedChinese简体中文
    0
1