当前位置: 首页 > 专利查询>刘陶专利>正文

中文信息数字化处理方法和汉字随机编码方法技术

技术编号:4090869 阅读:440 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种中文信息数字化处理方法,该方法将一、二级国标汉字按规范化信息进行拆分,然后把拆分的信息进行特征码信息列表,特征码信息列表中的每个汉字特征码包括汉字国标码(GB码)和控制码二部分,国标码是汉字代码,控制码则标记列表信息(部件、声韵母和笔划)在该汉字拆分中的序码。经过了数字化处理的汉字信息,终使汉字编码变成为人机之间的一种简单“约定”,人们只需按预先设定的编码规则输入字和词,不论是单一类信息还是混合类信息,也不论什么码长的编码操作,电脑都将可以通过采样相关的编码信息和判别编码条件来生成每一类编码操作,实现这一系列组合编码无需编制一条码表,也无需作任何切换,字、词的各类编码组合都将可以通过程序设计自动生成,这就是随机编码操作技术。

【技术实现步骤摘要】

本专利技术涉及一种计算机中文信息处理领域,特别涉及一种中文信息数字化处理方 法以及采用这种数字化处理方法的一种汉字随机编码方法。
技术介绍
在现有的中文信息处理领域中,以字形编码为例,码表结构设计者为了在标准键 盘上实现字、词输入,一般都将200多个部件信息来分解一、二级国标汉字(GB2312),然后 把这200多个部件信息直接地定位在26个字符键上,于是就把拆分汉字得到的部件码变成 可操作的键盘码(字码表)。并另行编制一套词码表(或用编码生成器协助生成字、词码 表),一并放入WINDOWS中文操作系统进行字、词编码操作。码表结构虽然解决了字、词的输 入,由于分解后的汉字信息没有经过数字化处理,电脑程序无法操作,不仅每一个编码方案 都必须编制一套字、词码表,而且只能实现单一类的编码操作(单一信息、单一序码、单一 码长),浪费了大量人力和财力,也给编码设计者和操作者带来许多不便。
技术实现思路
针对上述现有技术的不足,本专利技术要解决的技术问题是提供一种可使中文信息进 行程序化控制和处理的中文信息数字化处理方法,以便实现字和词的随机编码输入操作。为解决上述技术问题,本专利技术采用如下技术方案一种中文信息数字化处理方法,将一、二级国标汉字按规范化信息标准进行拆分, 拆分后的汉字信息进行特征码信息列表,列表中的每个汉字特征码包括汉字国标码(GB 码)和控制码二部分,国标码是汉字代码,控制码则标记列表信息在该汉字拆分中的序码。 集合部件、声韵母、笔划的全部特征码原始信息列表(YG表)作为汉字随机编码设计的信息 源。优选的,一、二级国标汉字的分解规范可以为“汉字部件规范”、“汉字笔画规范”或“汉字拼音方案”三种。本专利技术还公开了一种采用上述中文信息数字化处理方法进行汉字随机编码的方 法,其采用如下技术方案a)首先将一、二级国标汉字按“汉字部件规范”、“汉字笔画规范”和“汉字拼音方 案”进行拆分,拆分信息进行包括汉字国标码和控制码二部分的特征码信息列表;b)建立汉字特征码原始信息列表;c)对数字化的原始信息进行键位设计;d)将原始信息列表转化为数字化的键位信息列表;e)设立字、词编码缓冲区;f)储存键入信息于字、词编码缓冲区;g)字(或词)结束键后,根据字(或词)编码特性在字(或词)缓冲区中采集编 码信息;4h)根据字(或词)的编码特性(特征数据)判别该字(或词)是否符合编码条 件,检出编码字(或词),随机编码处理结束。优选的,在一、二级国标汉字按“汉字拼音方案”拆分的汉语拼音信息中的声母(21 个)列表,其控制码数据均为01,韵母(35个)控制码数据均为02。优选的,在一、二级国标汉字按“汉字笔画规范”拆分的汉字笔划一般采用横、 竖、撇、点(捺),钩五个笔划,用数字键1 5作代码,也可以按双笔划组合(5X5 = 25 组)虚拟地排列于字符键上,按数字键操作,按字符键列表。优选的,所述部件列表中控制码的标记信息,包括首部件标记、次部件标记、第三 部件标记、末部件标记和尾部件标记,其中末部件是特指四个或四个以上部件汉字的最后 一个部件;尾部件是泛指包括成字部件、双部件、三部件及多部件在内的所有汉字的最后一 个部件。进一步的,原始信息列表转化为数字化的键位信息列表采用四码长键序(四码长 键序可同时兼容于三码长和二码长编码操作),在四码长的键序中,第一次出现的部件被看 作首部件,其后依次为第二部件、第三部件和末部件;同样,四键中首次出现的拼音信息视 作声母,其后为韵母;四键中出现的笔划信息依次为第一二笔、第三四笔和第五末笔。优选的,所述随机编码实施例中,不论字或词编码都可随机变换输入信息类型而 无需切换。优选的,所述随机编码实施例中,对于字编码,不论是输入同类信息还是异类信 息,可随机变换码长而无需切换。优选的,所述随机编码实施例中,包括建立字、词编码缓冲区,其容量包含整个字 库(GB2312)。其作用为输入信息分别储存于字和词编码缓冲区;从字(词)库采集字 (词)的编码信息并去编码缓冲区判别字(词)编码条件,最终获得编码字(或词)。优选的,所述字、词编码缓冲区每个汉字的数据位在输入字、词信息前要清零。上述技术方案具有如下有益效果该中文信息进行数字化处理方法把200多个拆 分部件、声韵母和笔划信息进行特征码信息列表,列表中的每个汉字特征码包括汉字国标 码和控制码二部分,国标码是汉字代码,控制码则标记列表信息在该汉字拆分中的序码。由 此可见,汉字拆分后的各个信息不仅全部保存在该汉字的控制码中,而且进行了数字化处 理。汉字拆分后的每一个信息电脑都能进行程序处理,因而字、词的各类编码组合都将可以 通过程序设计自动生成。有关汉字特征码信息列表结构的示例见附表一。经过了数字化处理的汉字信息,终使汉字编码变成为人机之间的一种简单“约 定”,不再需要编制各种码表,只需在系统中设定人机都能识别的编码规则,人们只需按预 先设定的编码规则输入字和词,然后由系统自动采样编码信息并判别编码条件来完成一系 列不同编码操作(即随机编码)。显而易见,设定编码规则比人工编制码表和编码生成器生 成码表(编码生成器并没有摆脱码表的弊病)都要简单方便和快捷,且编码功能也强大得 多。设定编码规则的目的只是让电脑能分辨出你输入的键位、序码和码长等信息在其一系 列编码组合中属于哪一类别的编码。经过数字化处理后的中文信息最显著的一个特点是可以纳入电脑程序设计轨道, 也是实现随机编码操作的核心技术。这里以实现汉字随机编码为例详细说明中文信息数字 化处理后的程序设计方法及其强大的信息处理功能。说明书附1为本专利技术实施例的流程图。具体实施例方式(1)汉字随机编码的技术特点1,汉字信息有部件、拼音、笔划等。然而所有码表方案都是单一信息、单一序码、单 一码长的输入模式,一套字词码表只能完成一种输入操作。随机编码容许字、词的输入过程中随机变换不同类信息,既可以按部件码、拼音码 或笔划码操作,也可以按上述三种不同类信息混合输入。只需遵循如下规则,电脑就能从一 系列的编码组合中分辨出用户输入的是哪类编码操作,并由程序完成自动编码字编码规则不论输入同类或异类信息,键入的字、词编码信息均按各自的分解 次序取码,总是先取该类信息的首键序,后取次键序。如首部件、声母、次部件、韵母(四码 长),或第一二笔划、声母、第三四笔划(三码长)。词编码规则如二字词,首键可以键入任意信息,第二键信息若与首键信息同类, 电脑将认同为同类信息的次键序,如次部件或韵母或第三四笔划;若与首键信息(如部件) 不同类别,电脑将认同为异类信息的首键序,如声母或第一二笔划。电脑对尾字信息的处理 同首字。若是三字词,取首、次字的首键序,尾字的压键规则同二字词。四字及以上词语,取第一、二、三字及尾字的任意类信息的首键序。随机编码的取码规则和传统编码基本一致,符合人的常规思维,无需特别记忆。2,随机编码容许随机变换码长。若输入四键加SP (空格)键,系统即按四码长处 理(如部件码即为第一、二、三及末部件);若输入三键加SP键,系统则按三码长处理(如 部件码即为第一、二部件及系统自动调整后的末部件);二键加SP键即按二码长处理。它 们都是不同码长的随机编码输入,与二级、三级简码是截然不同的输入模式。3,随机编码包含的字、词编码系本文档来自技高网...

【技术保护点】
一种中文信息数字化处理方法,其特征在于:将一、二级国标汉字按相应的分解规范进行拆分,拆分后的汉字信息进行特征码信息列表,特征码信息列表中的每个汉字特征码包括汉字国标码(GB码)和控制码二部分,国标码是汉字代码,控制码则标记列表信息在该汉字拆分中的序码。

【技术特征摘要】
一种中文信息数字化处理方法,其特征在于将一、二级国标汉字按相应的分解规范进行拆分,拆分后的汉字信息进行特征码信息列表,特征码信息列表中的每个汉字特征码包括汉字国标码(GB码)和控制码二部分,国标码是汉字代码,控制码则标记列表信息在该汉字拆分中的序码。2.根据权利要求1所述的中文信息数字化处理方法,其特征在于一、二级国标汉字的 分解规范可以为“汉字部件规范”、“汉字笔画规范”或“汉字拼音方案”三种。3.一种汉字随机编码方法,其特征在于,包括如下步骤a)首先将一、二级国标汉字按“汉字部件规范”、“汉字笔画规范”或“汉字拼音方案”进 行拆分,拆分后的部件、声韵母、笔划信息进行包括汉字国标码和控制码二部分的特征码信 息列表;b)建立汉字特征码原始信息列表;c)对原始信息进行键位设计;d)将特征码原始信息列表转化为特征码键位信息列表;e)设立字、词编码缓冲区;f)储存键入信息于字、词缓冲区;g)字(或词)结束键后,根据字(或词)编码特性从字(或词)库中采集编码信息入 字(或词)编码缓冲区;h)根据字(或词)的编码特性(特征数据)判别该字(或词)是否符合编码条件,检 出编码字(或词),编码处理结束。4.根据权利要求3所述的汉字随机编码方法,其特征在于在一、二级国标汉字按“汉 字拼音方案”拆分的汉语拼音信息中的声母(21个)列表,其控制码数据均为01,其韵 母(35个)列表中控制码数据均为02。5.根据权利...

【专利技术属性】
技术研发人员:陈玉龙
申请(专利权)人:刘陶
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1