当前位置: 首页 > 专利查询>王昭宁专利>正文

〃多对一〃式汉语拼音代码输入编码法制造技术

技术编号:2892292 阅读:352 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种汉字输入编码技术,尤其是一种“多对一”式汉语拼音代码输入的编码法。它是以汉语拼音为基础的计算机中文信息输入法,其要点是由汉语拼音文字码、长拼汉语拼音词、非词字段码、汉语拼音重码词、重码词标调码、拼音单字码等组成一个多层次、多等级的汉词(字)拼音代码库,机器对多种输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码,再以一对一的方式转换成汉语词(字)。(*该技术在2013年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种汉字输入编码技术,尤其是一种“多对一”式汉语拼音代码输入的编码法。汉字编码输入计算机进行中文信息处理的方案已有三、四百种,并且随时有新的方案问世,但真正获得社会公认和广泛应用的并不太多,一般都存在着“输入快的不易学,易学的输入慢”的通病。汉语拼音对推广使用计算机及普通话输入起了很重要的作用。随着电子计算机中文输入朝着高速、快捷、方便的方向发展,对计算机拼音编码的要求越来越高。现有的拼音编码方法,由于大量的同音字、重码词的存在,迫使输入人员在输入编码后,须再次进行辨别、选择,大大降低了输入速度,以及所采用的标调字母属于兼职型标调字母,而用字母标示字、词音调在多音节词的使用中不论拼读写都很不方便,与相邻音节极易产生混淆,还能构成音节与音节的连缀,显而降低了输入速度。目前,在各种计算机上,都可以兼容多种汉字输入(编码)方法。每一种方法,都在机器中存在一个汉字输入编码与汉字国标内码的对照表-码表与之对应。但是,任何二种或二种以上的输入方法均不能同时混合使用,即用户在任一时间内只能使用单一的输入方法,如“全拼音”或“五笔字型”等,一般适用于专业用户。本专利技术的目的为解决上述所存在的问题,提供一种可对多种输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码,即“多对一”式汉语拼音代码输入编码法,并以“意码”、“标调”等手段减少重码率,然后再以一对一的方式转换成汉语词(字),此编码法既适用专职打字员,又方便于普通用户。本专利技术是这样实现的“多对一”式汉语拼音代码输入编码法,是以“汉语拼音文字正词法和汉语拼音文字词典”为基础的计算机中文信息输入法,其要点是它由汉语拼音文字码(包括汉语拼音文字异形词)、长拼汉语拼音词、非词字段码、汉语拼音重码词、汉语拼音重码词标调码、拼音单字码、常见错拼码、地方音拼音码及其他输入码(如五笔字型码),组成一个多层次、多等级的汉词(字)拼音代码库,机器对多种输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码,并以“意码”、“标调码”等手段减少重码率,然后再以一对一的方式转换成汉语词(字)。下面结合附图及实例细述本专利技术的内容附图说明图1为本专利技术的编码法示意图其中1.汉语拼音文字码(包括异形词)2.长拼汉语拼音词3.汉语拼音重码词标调码4.非词字段码5.汉语拼音重码词6.拼音单字码7.常见错拼码8.地方音拼音码9.其他输入码(如五笔字型码)10.汉语拼音代码11.汉语词(字)由图1所示,“多对一”式汉语拼音代码输入编码法是以“汉语拼音文字正词法和汉语拼音文字词典”为基础的计算机中文信息输入法,其要点是由汉语拼音文字码包括汉语拼音文字异形词(1)、长拼汉语拼音词(2)、非词字段码(4)、汉语拼音重码词(5)、汉语拼音重码词标调码(3)、拼音单字码(6)、常见错拼码(7)、地方音拼音码(8)及其他输入码(9)如五笔字型码,组成一个多层次、多等级的汉词(字)拼音代码库,机器对多咱输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码(10),并以“意码”、“标调码”等手段减少重码率,然后再以一对一的方式转换成汉语词字(11)。本编码法对一切附加的、新增加的输入码,都是以不增加新的重码为条件的,如果其中哪一个词的拼法引起了新的重码,那么就将该类码中的该词条舍弃。本编码法是将不同的编码、不同的路径的词都放在同一张大的码表中,并按拼音字母顺序排列,并保证机器反应速度,对词库安排的分级,系统将按词(字)的使用频度而非按输入途径(方法)划分,频度高者优先。一、汉语拼音文字码的编码(1)包括异形词是用汉语拼音词汇为兰本,以词为单元,适当收入一些不是词的单字。对没有重码的汉语拼音词和字,基本上采取全部健入。同时尽可能地利用表意的,不发音的辅音词或字尾来区别重码词。A.汉字词组缩写后引起的重码词,对于这些重码词,采取保留一个或多个被省略了的汉字的辅音字母的方法来区分重码词。计划生育→计生→jisheng→jihsheng寄生→jisheng其中h为被省略的汉字“划(hua)”的头一个字母见效→jianxiao→jianxiaog→见效(果)其中g为被省略的汉字“果(guo)”的头一个字母见笑→jianxiao→jianxiaoh→见笑(话)其中h为被省略的汉字“话(hua)的头一个字母奸笑→jianxiao→jianxiao→奸笑B.拼音文字的异形拼法与非正规拼法对同一词组,不同的人会加入不同的拼音词尾。例见效(果)→jianxiaog见效见效(益)→jianxiaoyjianxiaog→见效见效(能)→jianxiaon把jianxiaoy、jianxiaon作为jianxiaog的异形拼法或非正规拼法存入代码库。当选用异形拼法输入时,仍可准确地找到正确的词。C.选用部分汉字词的表意偏旁名称的辅音字头作为词尾以区别重码词。例鸡→ji→jiq鸭→ya→yaq猫→mao→maoq狗→gou→gouq与禽、犬有关的词(字),都取禽、犬的拼音qin、quan的字头q为词尾。D.对于第三声发音采取元音字母双写的方式以区别重码词,而对没有重码的第三声词则不必要。例哪里→nali→naalii,那里→nali→naliiE.尽可能扩大单字词的连写范围,与区分单字词重码动词连写表示动词“进行”、“完成”或“过去”时态的“着”、“了”、“过”、“完”、“完了”等,都应与动词连写。例看着→kanzhuo看了→kanle看过→kanguo看完→kanwan看完了→kanwanle看过了→kanguole另外,如看上、看中、看好、看涨等也要连写,其次,对“的”、“地”、“得”也要尽可能连写。F.词库中收录了地名、姓氏、常用人名等,用大写头一个字母以区别其它一般词。同时,也对有重码的加词尾以示区别。例杨威(人名)→Yangwei扬威(一般词)→yangwei赵(姓)→zhaox其x表示姓(xing)的头一个字母胡(姓)→hux秦(姓)→qinxG.拟音词后面加h例啊→ah噢→aohI.对不能或不便利用以上规则消除重码的词(字)及其它某些特殊词(字),可以规定特殊拼法,并将列出特殊拼法词表,以利掌握使用。例拼音shi,有很多重要重码字“是”、“十”、“事”等,这时规定编码shi为“是”,shi+为其它重码词的编码,以便减少高频词“是(shi)”反复出现引起的挑重码的概率。二、长拼汉语拼音词(2),适当加入一些无间隔连续拼写和汉语拼音词组,除低进入汉语拼音重码词的概率。例实际上shijishang实际是ahijishi实际表明shijibiaoming以避免输入“实际(shiji)”后与“史迹(shiji)”、“史记(shiji)”、“事迹(shiji)”等发生重码的机会。三、汉语拼音重码词标调码(3),采取在词尾加数码1、2、3、4以区别四声。例计划→jihua44激化→jihua14极化→jihua24在有些场合,只需键入jihua4、jihua1、jihua2即可将以上三个词区分开,一般三字及三字以上的词不必标调。四、非词字段码(4),有些语节,可能既不是词,也不是词组,但会经常以两个以上字的形式同时出现。尽显ji本文档来自技高网...

【技术保护点】
一种“多对一”式汉语拼音代码输入编码法,是以“汉语拼音文字正词法和汉语拼音文字词典”为基础的计算机中文信息输入法,其特征是它由汉语拼音文字码(1)包括汉语拼音文字异形词、长拼汉语拼音词(2)、非词字段码(4)、汉语拼音重码词(5)、汉语拼音重码词标调码(3)、拼音单字码(6)、常见错拼码(7)、地方音拼音码(8)及其他输入码(9)如五笔字型码,组成一个多层次、多等级的汉词(字)拼音代码库,机器对多种输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码(10),并以“意码”、“标调码”等手段减少重码率,然后再以一对一的方式转换成汉语词字(11)。

【技术特征摘要】

【专利技术属性】
技术研发人员:王昭宁
申请(专利权)人:王昭宁
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1