当前位置: 首页 > 专利查询>龚学胜专利>正文

中文文字龚码统一方案及内码完整规范转换制造技术

技术编号:2881111 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术为一种中文文字龚码统一方案及内码完整规范转换。用现代化的科学量化的方法从综合字词频、字词频方向平均值等方面进行筛选、整合、规范,内码同时兼顾简繁字形,实现用字范围、字形、字义、字音等方面的全面完整统一。通过合理最简字词等方法及来源字词转目的字词、转用语译名、复杂修正等步骤得到完整规范化的单多向转换结果。本发明专利技术可有效应用于各种涉及到中文的计算机软件与平面、电子、多媒体出版品,可支援所有平台,可促使中文软件简繁版本合一。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种中文文字龚码统一方案及内码完整规范转换,更具体地说,涉及一种关于中文文字字形、字义、字音、用字范围的全面完整统一的方案——龚码(Chinese GONG Code),及中文龚码、国标码、大五码等多种内码之间或同种内码之内的单、多向的完整规范化快速转换。现行中文文字形成的语言以北京语言为标准音,以北方话为基础方言,以典型的现代白话文著作为语法规范。中文文字在简化字使用区称作汉字(以体现多民族平等的观念),繁体字使用区称作中文字。由此形成的语言在简化字使用区称作汉语,现代汉语的标准语是普通话;繁体字使用区称作国语;海外多称作华语。在日常生活中,无论是华语所属的汉藏语系,还是目前国际上通行的英语所属的印欧语系,都未把“文”和“语”分那么清楚。中文文字从古到今累计的字汇量大约为六万多个。随着文化、历史的演变,有些中文字成了不再使用的“无效字”或极少使用的“罕用字”。目前中国大陆、新加坡等地使用中文简化字(繁体字使用区称之为“簡體字”),主要为国标码(即GB2312-80,以下同),由中国国家标准总局在1981年公布,以作为全国的中文内码标准。国标码有6763字(包括3755个常用字和3008个次常用字)和682个符号。中国台湾、香港和海外华人社会使用中文繁体字,主要为大五码(即BIG5,以下同),有13053字(包括5394个常用字和7659个次常用字)和408个符号。大五码1984年由五大台湾电脑公司共同制定,因而取名“大五码”。“香港增补字符集”包括4,702个包括了广州话方言字在内的中文字符,配合大五码的部分字一起使用。繁体字的台湾用法和香港用法(即便不计广州话方言字)有一定差异,是繁体字用法中的两个较大分支。繁体字使用区通常将国标码和大五码之外的广州话特有方言字叫作香港字。有较完善的文字规范,能独立形成正式公开出版品的较为完善的文字内码体系为单一内码,如国标码、大五码和本专利技术的龚码基本字符集。繁体字的香港用法也可视为单一内码。包括两种以上单一内码的为综合内码,如国际码Unicode,国标码扩展字符集GBK(包括21886个字符),大五码扩展字符集BIG5+(包括51585个字符)。以上GBK和BIG5+两种扩展字符集(因与原单一内码的编码方式不同,且并非只包括扩展延伸部分,应称作综合字符集),都包括简繁中文字、香港增补字和日、韩文字。以下如无特别注明,均指单一内码。与本专利技术有关的中文文字的现行规范为1.文字使用者若选用某种中文文字单一内码,用字不应超出这一内码的范围(少数使用方言字的特殊情况除外),除非由编码制定者向原单一内码中系统性加字。不应“缺字”(字与字之间出现非正常的空白)、“借字”(向另一内码“借”)、“多字代一字”(用几个字来代替某一个字)或“自造新字”。2.按严谨的文字规范,某种单一文字内码的所有正式公开形成品(如图书、报刊、网页、软件等)都应遵从这一内码的同一用字规范和习惯,不可以“多种单一内码混用”。3.若不能达到以上标准,按宽泛的文字规范,某种单一文字内码的所有正式公开形成品(如图书、报刊、网页、软件、多媒体等)都应遵从其用字规范和习惯的无选择和无争议部分。某种单一文字内码的同一正式公开形成品(如同一份报刊、同一家国际互联网的网页等)应遵从自“可选择和有争议部分”中选定的标准和习惯。目前繁体字的使用基本上是按照这一标准。如简化字的“证”对应繁体字的“證、証”,“證”与“証”没有任何字义上的差别,属于“可选择”用字。如果一家繁体中文报纸选择用“證”,那麽该报纸中出现的所有这个字都要用“證”,而不能用“証”。不可以前面一篇文章用“證据”,后面一则广告用“証据”。更不可以出现“事實証明他原来的求證是錯誤的”或“在台協會於臺北”这样的字句。4.一种转换方法,在何种有关联的内码之间、或何种综合内码之内转换,转换结果用何种有关联的内码显示、输出都没关系,但一定要与目的单一内码的文字规范、文字使用习惯和用字范围严格映射。如中文字的转换,既可在国标与龚码、大五与龚码、国标与大五之间,或单一内码与Unicode、GBK或BIG5+之间,也可在以上某一综合内码之内。转换结果的显示或输出可用目的单一内码,也可用以上有关联的综合内码。但转为大五码繁体字的结果要与大五码的规范、习惯、用字范围映射,转为国标码简化字的结果要与国标码的规范、习惯、用字范围映射。以下是中文简化字和繁体字统一或转换方面所存在的一些问题1.一种中文内码的一个字有时对应另一种中文内码中的多个字(一对多)(1)“同一字义”一对多如简化字的“机”所对应的繁体字的“機、机”。这种“一义多字共用”的现象在繁体字中较为普遍,且现行中文文字工具书和中文文字转换方法并未以系统规范的方法解决这一“不规范”的问题。(2)“不同字义”一对多如简化字的“制”所对应的繁体字的“製、制”;繁体字的“乾”所对应的简化字的“乾、干”。繁体字对于人称用字字义的划分较细,如第二人称用字,若为男性或不知道对方性别时用“你”,若为女性用“妳”。第三人称用字,若为人以外的动物用“牠”,非动物用“它”。“妳”字在繁体字使用区内的面向女性的杂志中特定字频相对较高。作“别的”义解时简化字将“其他”与“其它”分开,后者专用于事务(也可通用)。繁体字则只使用了“其他”。简化字的三个常用助词用字“的、地、得”,部分繁体字工具书只使用了“的、得”。“用在词或词组后表明副词性”时,繁体字大多使用“的”。(3)“有争议字条”一对多如简化字的“游”对应繁体字的“遊、游”,“遊”与“游”有字义上的差别。“游”的字义①在水里行动。②江河的一段。③姓。“遊”的字义①闲逛,从容地行走。②交友往还。但关于“不固定的”这一字义,不同的中文字典或词典就有不同的解释,在这一义项下属于有争议用字。“同一字义一对多”与“有争议字条一对多”的区别是,前者不存在字义的归属问题,而后者存在。(4)“复杂状况”一对多一种中文内码的一个字有时对应另一种中文内码中或不同地区的“不同字义”或“同一字义”的多个字。如简化字的“台”所对应的繁体字的“台、臺、檯、枱、颱”。其中“颱”为单一义项,而“台、臺”、“檯、枱”在某些条目下是同一字义。2.一种中文内码的某些字,有时在另一种中文内码中并无“字”可以对应,也就是说,使用“字转字”的方式并不能作到“全面的、完整的”转换。国标码有二百多个字不能转为大五码的“字”;大五码约有四千多字不能转为国标码的“字”。如以“魚”作部首并与“魚”有关联的字,国标码有七十多字,大五码有一百六十多字。其中国标码有十几个、大五码则有一百零几个“魚”部的字不能转为另一内码的“字”。仅化学用字一项,国标码的二百零几个字就有四十多个字不能转为大五码(某些化学用字大五码有不同的用字和读音)。不能转换的字中并不全是“无效字”和“罕用字”。这就是有时在某些中文国际互联网(国际计算机网络)或报纸上造成“缺字”的部分原因。3.中文繁体字的规范和习惯较为复杂,如同为地名,可以用作“臺南”却不可以用作“臺州”;繁体字的使用现状较为混乱、失控,有的自立标准、自造新字。由于把握不住中文繁体字的规范和习惯,有的干脆选笔画最多的字用。如“皇後街的範先生喜歡人雲亦雲”,规范的用法应为“皇后街的范先生本文档来自技高网...

【技术保护点】
一种中文文字统一方案,其特征在于:提供一种科学的可行性高、易于推广的方案,在充分尊重现有各种中文单一内码使用规范和习惯的基础上,以现代化的科学量化的筛选、整合、变通、规范及创新方法避开各种复杂争议,实现中文文字的字形、字义、字音、用字范围的全面完整统一;以现阶段在中国大陆、香港特区和中国台湾使用最广泛的国标码、大五码和香港增补字符集为统一方案基本字符集选字的最大范围,根据综合字词频确认的不涉及“一对多”的常用字、次常用字全部收录;罕用字根据综合字词频、字词频方向平均值、组词能力、字义、姓氏和人地山河名因素等选择性收录;无效字不收录;现时尚在使用的姓氏用字、县以上地名用字、中医药用字、科技专用字(如化学元素周期表和有机化学用字)尽量全部收录;酌情收录影响较大、使用较广的特殊古文(如较出名的文言文、古典小说、诗词曲)用字和成语用字;酌情收录见诸于出版品的较常用而有特定字义的香港字;选择性收录儿童读物用字之类在某些特定范围中较常使用,而综合字频、词频不高的字;对于目前使用较广的几种中文单一内码(如国标码、大五码、香港增补字符集等)中的字,若统一方案未收录,在统一方案的相关字典和词典中按照“合理对应字、合理最简词”的方案给出与统一方案的使用对应指引。...

【技术特征摘要】

【专利技术属性】
技术研发人员:龚学胜
申请(专利权)人:龚学胜
类型:发明
国别省市:42[中国|湖北]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1