当前位置: 首页 > 专利查询>劳英杰专利>正文

一种用于电子、信息及通信系统的交换内码及其应用技术方案

技术编号:2917785 阅读:311 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于电子、信息及通信系统的交换内码,包括以3位元作为一位元集、并以3个或3个以上的位元集对字元、部首、笔画、字母、符号或图像以固定位元长度编码并建立的标准字符库,其中,汉字字元、部首、笔画依据部首属性编码规则进行编码;及包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映射表。本发明专利技术可大大提高计算机的运算速度及运算精度,可以方便地达到最适当的编码扩展需求,最大限度的节省编码空间,同时提高编译器的运算速度。

【技术实现步骤摘要】

本专利技术涉及一种交换内码,特别是一种对任一种文字的字元、部首、笔画、字母、符号或图形统一编码的用于电子、信息及通信系统的交换内码。
技术介绍
现代电脑系统交换内码的标准(American Standards Code for InformationInterchange),简称ASCII,开始是7位元表示1字节,为27;以128个合表示一些控制键、大小写拉丁字母及阿拉伯数字;及後以二进制28表示1字节,扩充至256个编码组合表示,包含某些西欧国家的交换内码需要;1967年并于瑞士的日内瓦建议成为国际组织标准(International Organization for Standardization),简称ISO。全球经济发展都需要现代电脑系统交换及显示相同信息,所以必需统一内码,随着亚洲个别国家及地区的需要,不同国家及地区都相继以不同方式及位元数量进行编码。包括日本工业标准(Japan Industrial Standard/JIS)、TRON、台湾的Big-5、香港地区的Big-5加上香港增补字符集(Hong Kong Supplementary Character Sets/HKSCS)、韩文及中国的GBK,最早是简体字编码的GB2312、及後包含繁体字的GB18030等。以上亚洲个别国家及地区的文字应用都有一共同点,都是使用简体或繁体汉字,而当中有大部份的汉字字型是相同的,但编码表示方法不同,就完全不能互相兼容;其数量差距相当大,由数千至数万不等。互联网的兴起,世界文字的编码表示方法亦随着产生变化,互不兼容的问题导致不能在互联网显示不同的世界文字,催生Unicode的出现。从1990年开始,首先把七千多个的世界文字编码,然后再将二万多个中日韩使用的汉字编码;及後再加入生僻的世界文字及汉字,应付整理各地古藉的需要,至目前为止共有十万个字容量。目前,不断出现的中阶及高阶电脑程序语言,及以电脑程序语言写成的操作系统都同时兼容Unicode,最新的标准是ISO10646,但其实对任何电脑或电子系统的硬件来说,用Unicode编码的电脑程序语言,巨大的位元量对任何运算都会造成极大负担。Unicode的缺点主要是沿用最早期的编码方法,导致要扩大字库时,必需要按照旧有方式横向发展,但以28横向发展;其产生的运算量极大,虽能满足编码的需要,却拖慢了电脑或电子系统的排序等运算能力。而且,Unicode的编码方法及逻辑并不符合大部份国家及地区的文字发展需要;例如,对成千上万个的汉字系统,可用二百多个部首分类,但Unicode并未把二百多个部-->首全部置入Unicode内,数万个汉字编码的位置非常混乱,无法做到部首与汉字系统间的逻辑属性对应关系,令汉语学者无法处理古藉内码的交流需要。以下为8位1字节的编码组合列表分析:表1Unicode的编码系统内予留了私人造字空间,用户可以自行以不同文字符号安放在造字区内;但这私人造字区的设置,却不能以交换码方式进行公众传递。一直以来,Unicode的发展,并不是以固定长度方式编码;西方的常用字母字节编得较少,罕用的文字符号编得较多,较多的位元量不容易实现高效率排序。目前,电脑程式语言的发展要解决兼容问题,都以Unicode为内码,直接令大部份程式语言的空间扩大,加大记忆空间及硬体的负担。目前的文字信息数据编码方法,其主要目的是为了扩大编码组合数量及准确记录文字字型,文字记录语义,西方的文字是以字母串组织语义;东方的中国是是以方块汉字组织语义。从ASCII到Unicode的编码发展,都并没有对任何文字或字母在语义属性方面进行编码。电脑和互联网的发展产生了极大量的文字信息,信息全球化更是以几何级数增加,及以关键词捡索,但结果虽大量却并不准确,因为海量信息是不可能以人手方式进行语义属性分类。世界上任何一种拼写文字都由是长短不一的字符串所组成,对极大量不同长短的字符串进行排序需要耗费极大的运算成本。最有效的管理是以固定长度数据(Fixed-Length Data)进行存储及排序运算,自动地对任何一种文字所表达的信息实现语义属性分类,从而以最快速度捡索出最具有语义关联性的结果。海量信息的捡索,首要条件是先区分语义属性,再在自动分类後的数据内进行深度挖掘;重新对文字或字母以属性编码是唯一让文字具备分类语义的方法。手机最早的应用是单纯的通信设备,及後电脑的功能越来越大,体积却越来越小,现时的发展已是把电脑的功能建立在手机上;所以通信设备的手机其电子结构就是电脑。但碍于旧有的编码表示方法,交换内码的极大负担,少量的文字数据都-->不容易应付,所以不可能在手机上以低成本发展电脑的所有功能;主要是高速排序,其他包括文字及数据库处理、搜索及网页浏览等。若能以相同效率的硬件提供比目前更高速的运算能力,手机可即时向更强大的功能发展。
技术实现思路
本专利技术的目的是克服现有技术的不足,提供一种运算速度高、节省存储空间的用于电子、信息及通信系统的交换内码。为了达到上述专利技术目的,本专利技术采用了以下技术方案:一种用于电子、信息及通信系统的交换内码,其特征在于:包括以3位元作为一位元集、并以3个或3个以上的位元集对字元、部首、笔画、字母、符号或图像以固定位元长度编码并建立的标准字符库,其中,汉字字元、部首、笔画依据部首属性编码规则进行编码;及包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映射表。由所述图形字元码构成的标准字符库及或汉语关键词映射表存储于计算机的CPU或ROM中。本专利技术以固定长度位元集、多个位元集模式对任何字元进行编码,每个位元集是23,即8种编码组合;由于23是最接近机器21的位元数量,因此大大提高了计算机的运算速度及运算精度。而且用23作为一个位元集对字符、符号及图像进行编码,在字符量增加时,可根据字符量的需要,增加一个或者一个以上位元集,以切合不同规模信息系统的运算需求,达到最适当的编码扩展需求,最大限度的节省编码空间,同时提高编译器的运算速度。而在Unicode的编码环境下,即使字符量增加一点,也只能横向增加一个字节或者更多的字节,造成编码空间的严重浪费,拖慢编译器的运算速度。本专利技术用固定长度编码,可发展更高速的顺逆并行的排序算法。已应用了数千年的汉字属于象形文字,是由偏旁部首及部件组合而成,而部首具有表示本质属性的特点,因此汉字具有可根据部首系统进行分类及归纳属性的特征。世界上除汉字以外的任一种其它文字都能根据词意与汉字建立映射对应关系,从而间接地具备自动分类的属性,从而转换为更少的位元量得以存储、排序运算及传输。本专利技术的汉语关键词映射表是根据相同的语义,将汉语词组与英语或者世界上其他文字建立语义对应关系,从而实现以最少位元量映射/表达其他文字编码,节省字符的编码空间,同时以固定长度位元集实现高速排序。附图说明-->图1是本专利技术编码流程示意图。图2是用6个位元集对任何文字的字元、部首、笔画及字母、标音符号、符号等进行编码建立标准字符库的示意图;图3是按汉字部首编码规则对汉字系统进行编码的示意图;图4是汉字部首与汉字词组编码的属性关系示意图;图5是任何文字词组与汉语根据关键词建立映射关系示意图;图6是用汉字编码映射相同语义英文词组的示意图;图7是本专利技术的应本文档来自技高网
...

【技术保护点】
一种用于电子、信息及通信系统的交换内码,其特征在于:包括以3位元作为一位元集、并以3个或3个以上的位元集对字元、部首、笔画、字母、符号或图像以固定位元长度编码并建立的标准字符库,其中,汉字字元、部首、笔画依据部首属性编码规则进行编码;及 包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映射表。

【技术特征摘要】
1、一种用于电子、信息及通信系统的交换内码,其特征在于:包括以3位元作为一位元集、并以3个或3个以上的位元集对字元、部首、笔画、字母、符号或图像以固定位元长度编码并建立的标准字符库,其中,汉字字元、部首、笔画依据部首属性编码规则进行编码;及包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映射表。2、根据权利要求1所述的交换内码,其特征在于:所述位元集的个数为6。3、根据权利要求2所述的交换内码,其特征在于:所述部首属性编码规则是指汉字按照笔画顺序拆分成至少一个部首或部件、以一位以上的位元集进行编码。4、根据权利要求3所述的交换内码,其特征在于:每一部首或部件以3位位元集进行编码。5、根据权利要求2所述的交换内码,其特征在于:所述部首属性编码规则是指汉字按照预定笔画集合和笔画顺序拆分成至少一个笔画、以至少...

【专利技术属性】
技术研发人员:劳英杰
申请(专利权)人:劳英杰
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1