当前位置: 首页 > 专利查询>任仰福专利>正文

一种形式化拼音和汉字对应识别的方法技术

技术编号:12312444 阅读:135 留言:0更新日期:2015-11-11 20:14
本发明专利技术针对汉语信息处理的需要,在对现行拼音方案改进的基础上,利用一至三个字母定音定调的音节或音节后附加义标字母组成的形式化拼音编码和一万多个汉字对应识别的方法,也就是和包括国标GB2312-80字符集中的全部简化汉字、繁体字、多音字在内的所有汉字一一对应无重码。使得汉字与国际公认的ASCII字符接轨,将汉字本身拆分为可独立计算的子单元,使汉字信息的数字解析、判断推理等计算机运算成为可能。同时,这也是一种直接输入汉语汉字的方法(准确表音,可直读。不用选字输入,一个汉字最多四码,每个词平均不足五码),按照拼音和编码规则或输入拼音后看提示栏就能直接输入要打的字。

【技术实现步骤摘要】

: 本专利技术涉及一种用形式化的拼音直接输入汉语的方法,尤其涉及用形式化的拼音 直接输汉字的方法。形式化的拼音是和汉字一一对应、可以准确表示普通话语音并且可以 代表汉字以单字节的形式进行存储和计算、符合国际标准的数字化文字形式。
技术介绍
: 目前我们使用的各种汉字输入法都是编码输入(语音输入除外),但是,所有编码 输入汉字的方法都不能消除重码,特别是不能表示字音(或不能准确表示字音),实际上就 是:所有编码都不能直接、准确地输入语言和文字、不能自动转换为符合国际标准的、唯一 准确的数字化形式在电脑上进行存储和运算。在汉字能够输入电脑之后,我国许多研究机 构就先后开始了大规模的汉字信息处理的研究,(包括语音识别研究的首要目标也是如何 将语音流准确识别为汉字的形式),国家有关部门也先后制定出了和汉字一一对应的国家 标准字符集的双字节机内码和扩展字符集的四字节机内码,希望将输入的汉字由计算机自 动转换成双字节或四字节二进制码之后就可以象拼音文字一样进行语言信息处理了。但 是,多年来大规模研究的实践经验告诉我们,中文的信息、处理远比拼音文字的信息处理要 困难得多。这是因为在现代汉语中双音词占绝对优势,还有数量可观的多音词(包括使用 频率很高的成语在内),单音词数量有限。因为"词义不是别的,它就是语音物化的思想,是 语言的一个最小单位的实际内容。这个内容是被一定的语音物质形式固定下来的。没有词 的形式也就没有词的意义。词义是在历史上形成并在集体中承受下来,用音组固定下来的 关于对象的概括。换言之,词用它的物质-音组-概括着整个一类对象的最一般的和特殊 的足以确定适合于该词的概念的外延的特征。"见著名语言学家孙常叙著《汉语词汇》第43 页。所以说,只有词才是语言信息处理的最小单位,汉字文章信息处理的首要任务是分词。 因此,近几年来,国内许多研究机构、大专院校都进行了汉语自动分词的深入研究。但是由 于汉字的多音多义性和相互组合成词的灵活性,书面上汉字无间隔的等距离排列等因素都 是造成分词不可避免的出现失误的原因。前国家语委主任许嘉璐在谈到目前我国中文信息 处理的现状时说:"虽然经过几十年的努力,目前中文信息处理还停留在字处理的阶段,"更 为重要的是:"一个汉字在计算机中需要至少两个字节表示,尤其需要强调的是在计算机中 表示汉字的两个字节、四个字节是必须捆绑在一起使用的二进制无序码,因此它只能作为 这个汉字的标识码而没有任何运算价值"见《可计算中文映射字典》前言。国际标准ASCII 码是单字节编码系统,并且每个字符的数字化编码都只占用了一个字节的后7位,同时字 节的最高位置"〇"可用做数据传输中的效验码来确保传输的正确性。为了解决汉字编码和 国际标准码不兼容的问题,非ASCII码(两字节以上)字节全部高位置"1"以示区别。但 是,因为汉字两字节及四字节的编码不可拆分、不可错位,这就同时还需要各种标识表示置 " 1"码的特征,其繁琐程度和安全隐患可想而知。因为数据传输中信号的衰减是随机的,也 是不可避免的。并且,代表汉字的双字节还可能和扩充了的ASCII代码发生混淆,这些都会 造成中文乱码,甚至导致系统锁死或系统崩溃的严重后果。 2012年9月,史颖先生根据他的专利技术专利(ZL2007 I 0000310. 3)编写出版了《汉 语拼字方案》,又名《可计算中文映射字典》,其编码规则为: 行、列、纵、序四个西文大写字母表示每个汉字:其中行为声母,使用23个西文大 写字母表示,无声母将第一字符作为行来表示,字母IVU作为特殊用途。对应关系如下: A :a B :b C :c, c h D :d E :e F :f G :g H :h J : j K :k L :1 M :m N :n0 :〇 P :p Q :q R :r T :t ff :w X :x Y :y S :s, sh Z :z, zh 其中列为韵母,使用26个西文大写字母表示,对应关系如下: A :a B :an C :ang D :ao E :e F :ei G :en H :eng L :j J :ia ua K :ianM :iao L :iang,uang N :ie,uai 0 :〇, er P :in Q :ing R :iong,ong S :iu T :ouU :u V :uan ff :ue, ui X :un Y :uo Z :ai 其中纵为四声。使用26个西文字母表示,对应关系如下: A B C D E F顺序表示阴平(一声)声调。G H I J K L顺序表示阳平(二声) 声调。 M N 0 P Q R S顺序表示上声(三声)声调。T U V W X Y Z顺序表示去声(四 声)声调。 其中轻声归入S。行、列、纵三位确定为特定该声调字母。声母为ch,sh,zh及韵 母U使用D,J中,P,W开始的后部声调字母。 其中序为该声调顺序码。词用表示连接。特殊词可用特殊符号连接。后缀 字加 u "连接。全部字集按GB2312加对应繁体字和《汉字标准字典》 (ISBN7-5619-3502-2)音序检字表排列。同时将常用字、词(可调整)分别进行一 位(声族)、二位(声韵族)、三位(声韵调族)简码表示。部首及全角字符归入BS族,特 殊韵母字归入EN族。 上述编码方法就声母来说,有6个声母分别用3个字母代替,增加了辨识的难度。 就韵母来说,除了两个韵母a和A,e和E直接对应外,全部韵母需要记住和那个字母对应, 并且需要记住其中6个字母分别对应的是哪两个韵母。完全没有规律,很难直接读或写出 来。特别是用6或7个字母都分别代表一个声调,在拼音时怎样选择?最后一个编码字母 是按照自己排序的字表第一个汉字对应西文的第一个字母,以此类推。一旦这个音节的字 超过西文字母的数目时,就把表示同声调的第一个字母换做第二个,编码的第四个字母再 从A开始往下排,以此类推。这样虽然解决了重码的问题,但是,什么时候用那个声调字母? 哪个汉字排在第几位,应该用哪个字母做编码的第四个字母,就得查码表来确定了。所以, 给每个汉字编码的四个字母,基本上都得死记硬背下来,才能复写出这个汉字的编码。如果 使用这种编码对应输入汉字,可能是所有输入法中记忆量最大的一种了。这种编码,如果 有人能象汉字一样流利地朗读出来的话,应该有资格上最强大脑的赛场了。所以,这种编码 推广使用的难度可想而知。它和我们的编码方法本质上的区别在于:第一,百分之八十以 上的韵母都用一个和这个韵母的发音或字形上毫无关联的字母重新定义,并且韵母ia-ua、 iang-uang、ie-uai、o_er、iong-ong、Ue-uei 及声母 zh_z、ch_c、sh_s 都是用一个字母代表 两个韵母或声母,例如:"咂和扎、擦和插、仨和杀的拼音都分别是"za、ca、sa",并且和声母 "zh、ch、sh"相拼的所有韵母组成的1500多个汉字的音节在拼读时都和声母"z、c、s"组 成的音节相混淆。这和作者前言中所说:"《汉语拼字方案》是将汉字本身进行了数字量化 拆分组合,是对汉语拼音方案的优化和完善,它完全遵循汉语拼音规则,完全遵循汉字笔画 标准顺序"的说法相矛盾。第二,用六、七个字母依次表示同一个声调,本文档来自技高网...

【技术保护点】
一种一至三个字母定音定调的音节或音节后附加义标字母组成的拼音编码和汉字对应识别的方法,简称为:(一种形式化拼音和汉字对应识别的方法),除了每个音节对应表示一个汉字外,每个音节后面附加一个义标字母(1至2个字母组成的音节附加一个义标字母后有重码的可以按规则再加上一个义标字母)对应表示一个汉字;为了把所有音节控制在三个字母之内,在本人专利技术的简化拼音方法(ZL2009 10169857.5)的基础上,声母“zh、ch、sh”在和韵母相拼时对应定义为“i、v、u”,声母“j、q、x”和韵母“ia、ian、iang”相拼时,韵母分别定义为“a、an、ag”,声母“n、l”和韵母“iang”相拼时,韵母定义为“gi”,声母“l、d”和韵母“ia”相拼时,韵母“ia”定义为“ya”;其特征在于:将所述键盘上的“i、v、u”三个字母定义为声母字符;将所述键盘上的“a、i、n、g、y”五个字母在汉语拼音中所组成的不同韵母和以上所述特定声母组成音节时,简化为相应的形式;所有和所述键盘上的元音字母“a、i”及以“a、i”做为韵母中主要元音组成的音节都表示一声,表示2、3、4声时,按照“a、b、c、r”或“i、s、k、l”的顺序对应替换元音字母a或i;轻声音节在音节后面加“.”表示。...

【技术特征摘要】

【专利技术属性】
技术研发人员:任仰福
申请(专利权)人:任仰福
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1