一种形式化拼音和汉字对应识别的方法技术

技术编号：12312444 阅读：175 留言：0更新日期：2015-11-11 20:14

本发明专利技术针对汉语信息处理的需要，在对现行拼音方案改进的基础上，利用一至三个字母定音定调的音节或音节后附加义标字母组成的形式化拼音编码和一万多个汉字对应识别的方法，也就是和包括国标GB2312-80字符集中的全部简化汉字、繁体字、多音字在内的所有汉字一一对应无重码。使得汉字与国际公认的ASCII字符接轨，将汉字本身拆分为可独立计算的子单元，使汉字信息的数字解析、判断推理等计算机运算成为可能。同时，这也是一种直接输入汉语汉字的方法(准确表音，可直读。不用选字输入，一个汉字最多四码，每个词平均不足五码)，按照拼音和编码规则或输入拼音后看提示栏就能直接输入要打的字。

全部详细技术资料下载

【技术实现步骤摘要】

：本专利技术涉及一种用形式化的拼音直接输入汉语的方法，尤其涉及用形式化的拼音直接输汉字的方法。形式化的拼音是和汉字一一对应、可以准确表示普通话语音并且可以代表汉字以单字节的形式进行存储和计算、符合国际标准的数字化文字形式。
技术介绍
：目前我们使用的各种汉字输入法都是编码输入（语音输入除外），但是，所有编码输入汉字的方法都不能消除重码，特别是不能表示字音（或不能准确表示字音），实际上就是：所有编码都不能直接、准确地输入语言和文字、不能自动转换为符合国际标准的、唯一准确的数字化形式在电脑上进行存储和运算。在汉字能够输入电脑之后，我国许多研究机构就先后开始了大规模的汉字信息处理的研究，（包括语音识别研究的首要目标也是如何将语音流准确识别为汉字的形式），国家有关部门也先后制定出了和汉字一一对应的国家标准字符集的双字节机内码和扩展字符集的四字节机内码，希望将输入的汉字由计算机自动转换成双字节或四字节二进制码之后就可以象拼音文字一样进行语言信息处理了。但是，多年来大规模研究的实践经验告诉我们，中文的信息、处理远比拼音文字的信息处理要困难得...

【技术保护点】
一种一至三个字母定音定调的音节或音节后附加义标字母组成的拼音编码和汉字对应识别的方法，简称为：(一种形式化拼音和汉字对应识别的方法)，除了每个音节对应表示一个汉字外，每个音节后面附加一个义标字母(1至2个字母组成的音节附加一个义标字母后有重码的可以按规则再加上一个义标字母)对应表示一个汉字；为了把所有音节控制在三个字母之内，在本人专利技术的简化拼音方法(ZL2009 10169857.5)的基础上，声母“zh、ch、sh”在和韵母相拼时对应定义为“i、v、u”，声母“j、q、x”和韵母“ia、ian、iang”相拼时，韵母分别定义为“a、an、ag”，声母“n、l”和韵母“iang”相拼时，韵...

【技术特征摘要】

【专利技术属性】
技术研发人员：任仰福，
申请(专利权)人：任仰福，
类型：发明
国别省市：河北;13

全部详细技术资料下载我是这个专利的主人