拼音汉字变换方法及其系统技术方案

技术编号:2888680 阅读:183 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种拼音汉字变换方法和系统。传统的汉字拼音输入系统一般只能判别词的输入而不能利用词间的连接关系。本发明专利技术的方法包括:输入拼音码;查找拼音字词关系表,获得第一组候选字词;根据已变换词与每个候选字词,查找词间关系表,获得能与前次已变换词连接的第二组候选字词;词间关系表存储了两个词之间的连接关系;计算第二候选字词中每个候选字或候选词的评价值,根据所述评价值从第二候选字词中确定变换字词。还提供了实现这种方法的系统。(*该技术在2017年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种将拼音变换成汉字的方法,还涉及一种实现这种方法的系统。汉字输入是在计算机中应用汉字所必不可少的技术。因此,人们研究开发了各种汉字输入方法,至今已有不下千种。然而,实际应用的却不多。拼音输入法是目前计算机中使用较为广泛的一种输入法,虽然拼音输入法存在着输入速度慢,重码率高的缺点,但它在众多的输入法中能占一席之地有其特点,即,拼音输入法不象其它某些输入法要记忆许多规则,它容易学习,只要会读会拼,一般都能用这种方法进行输入,因此适合于非汉字输入专业人员使用。但由于汉字中同音字很多,除去声调,汉字中的发音只有四百多个,而常用的汉字就有四五千个,因此,拼音输入法的重码率很高,输入者输入时要从多个同音字中进行选择,这大大限制了输入速度。在本申请人于1996年5月13日提出的名称为“汉字拼音输入系统”、申请号为96106240.1的专利技术专利中,公开了这样一种输入系统,这种系统根据前次输入的汉字,利用汉字关系表来判别当前输入的拼音码为何汉字,从而减少用户的选择次数,提高输入速度。这种输入系统利用了汉字的字与字之间的连接关系。但对于输入的句子中,还存在着词与词之间的关系,仅利用字与字之间的连接关系,就不能正确判断出词与词之间的连接关系。例如,我们要输入的词组为“汉字拼音输入系统”,在输入了“汉”之后,当输入拼音“zhi”时,利用该申请中的汉字关系表可以判断出这一拼音对应的汉字应为“字”,而不是其它发“zhi”音的汉字,例如“自、之、纸”等,因为,在汉字关系表中只有“汉”与“字”的连接,没有“汉”与“自”或与“之”或与“纸”的连接。但当输入后一汉字的拼音“ping”时,由于在汉字关系表中,“字”与发“ping”音的汉字之间的连接关系为“字频”,与实际要求输入的内容不一致,而且这往往总是不能一致的,因为“汉”与“字”之间的连接关系是字与字之间的连接关系,所以可以利用汉字关系表,而“字”与“拼”之间实际上是“汉字”与“拼音”之间的连接关系,是词与词之间的连接关系,所以仅利用字与字之间连接关系的汉字关系表就不能进行正确的变换。根据上述已有技术存在的不足,本专利技术的目的在于提供一种利用汉语中词与词之间的关系,把拼音变换成汉字的方法。本专利技术的另一个目的在于提供一种利用上述方法的拼音汉字变换系统。根据本专利技术的构思,本专利技术提供的拼音汉字变换方法包括以下步骤(1)输入拼音码;(2)判别是否输入了开始变换标记;如有则继续下一步,否则返回第(1)步骤;(3)根据输入的拼音码,查找拼音字词关系表,获得对应于这些拼音码的第一组候选字或第一组候选词;所述拼音字词关系表存储了拼音与所对应字和词的映射关系,以及这些对应的字和词的使用频度;(4)根据前次已变换的词与上述步骤(3)中所获得的每个候选字或候选词,查找词间关系表,对所述第一组候选字或第一组候选词进行删选,获得能与前次已变换词连接的第二组候选字或候选词;所述词间关系表存储了两个词之间的连接关系;如果在本步骤中,没有前次已变换的词,则根据所述拼音字词关系表中存储的使用频度确定变换的字或词;(5)计算所述第二候选字或第二候选词中每个候选字或候选词的评价值,并根据所述评价值从所述第二候选字或第二候选词中确定变换的字或词;(6)判断是否出现已到末尾;如果没有出现,对下一拼音码重复步骤(3)-(5),否则结束或返回步骤(1)。本专利技术还提供了一种实现上述方法的拼音汉字变换系统,该系统包含输入部分,用于输入拼音码;拼音字词关系表,存储拼音与所对应字和词的映射关系,以及这些对应的字和词的使用频度;查找部分,与所述输入部分相连,接收拼音码,并与所述字词关系表相联,用于根据所述拼音字词关系表,查找对应于所述拼音码的字或词;已变换词集,存放已变换词第一组候选字词集,与所述查找部分相连,存放所述查找部分查找所述拼音字词关系表获得的对应于所述拼音码的字或词;词间关系表,与所述查找部分相连,所述查找部分根据所述已变换词集中前次已变换的词与所述第一组候选字词集中的所述候选字词,查找所述词间关系表,对所述第一组候选字词进行删选,获得能与前次已变换词连接的第二组候选字词;第二组候选字词集,用于存放所述查找部分查找所述词间关系表获得的第二组候选字词;评价值计算部分,与所述第二组候选字词集相连,用于计算所述第二组候选字词集中每个候选字词的评价值;选词部分,与所述第二组候选字词集和所述评价值计算部分相连,用于根据所述评价值计算部分计算得到的第二组候选字词的评价值确定变换的字或词,并放入到所述已变换词集中。由于在本专利技术的方法和系统中增加并利用了词间关系表,将该词间关系表与拼音字词关系表相结合,不仅能根据字与字之间的连接关系来变换拼音,而且还能根据词与词之间的关系来变换拼音,从而提高了输入速度。下面结合附图详细描述本专利技术的实施例。附图说明图1是本专利技术的拼音汉字变换方法的流程图;图2是拼音字词关系表的结构图;图3是词间关系表的结构图;图4是改进的词间关系表的结构图;图5是本专利技术拼音汉字变换系统的结构框图。现在先参见图1来描述本专利技术的拼音汉字变换方法。如图1所示,首先在步骤S1通过输入装置输入拼音码,输入装置可以是普通的键盘、鼠标或者专用输入设备等。这里我们以输入“二十一世纪是一个实际的世纪”为例来进行说明。为了输入这一句子,应输入其拼音码“er shi yi shi ji shi yi ge shi ji de shi ji”(在实际输入时,可以不输入空格,连续输入,这里留出空格仅是为了方便辨认)。当输入上述拼音码时,在步骤S2随时判别是否输入了开始变换标记。本专利技术涉及的是一种整句拼音音汉字变换方法和装置,因此,在本实施例中,开始变换标记可以采用例如逗号、句号、问号、感叹号、分号等表示停顿的标点符号,也可以规定的一个符号,例如空格等。如果在S2没有判别出有开始变换标记,则流程返回到步骤S1,继续输入拼音码。如果判别出有开始变换标记,则流程进入到下一步骤S3,根据输入的拼音码查找拼音音字词关系表。拼音字词关系表存储了拼音与所对应字和词的映射关系,以及这些对应的字和词的使用频度。图2示出了这种拼音字词关系表的结构。如图2所示,对应于拼音码“er”根据其映射关系可以查到汉字“尔”、“二”、“而”等,对应于拼音码“ershi”根据其映射关系可以查到词“二十”、“而是”、“儿时”等,对应于拼音码“ershiyi”根据其映射关系可以查到词“二十一”、等。同时也可以得到这些字和词的使用频度。对于上述的例子来说,对于拼音码可以查找到一组候选字或候选词(我们把它称为第一候选字或第一候选词)(步骤S4)。可以把获得的第一组候选字、词存放在第一组候选字、词集中。然后,流程进入到步骤S5,在步骤S5中,判断是否有前次已变换的词。如果没有流程进入到步骤S6,在步骤S6,根据第一候选字、词的使用步骤来确定变换的字或词。即,哪个候选字或词的使用频度高,就选那个字或词作为变换词,在本例子中,上述候选字、词“尔”、“二”、“而”、“二十”、“二十一”等中,“二十一”的使用频度最大,所以就把“二十一”确定为拼音码“ershiyi”的变换词。然后流程进入到步骤S11。判断是否已变换到拼音码末尾,即是否到了句子的停顿处,如果没有到,流程返回到本文档来自技高网...

【技术保护点】
一种拼音汉字变换方法包括以下步骤:(1)输入拼音码;(2)判别是否输入了开始变换标记;如有则继续下一步,否则返回第(1)步骤;(3)根据输入的拼音码,查找拼音字词关系表,获得对应于这些拼音码的第一组候选字或第一组候选词;所述拼音 字词关系表存储了拼音与所对应字和词的映射关系,以及这些对应的字和词的使用频度;(4)根据前次已变换的词与上述步骤(3)中所获得的每个候选字或候选词,查找词间关系表,对所述第一组候选字或第一组候选词进行删选,获得能与前次已变换词连接的第二 组候选字或候选词;所述词间关系表存储了两个词之间的连接关系;如果在本步骤中,没有前次已变换的词,则根据所述拼音字词关系表中存储的使用频度确定变换的字或词;(5)计算所述第二候选字或第二候选词中每个候选字或候选词的评价值,并根据所述评价值 从所述第二候选字或第二候选词中确定变换的字或词;(6)判断是否出现已到末尾;如果没有出现,对下一拼音码重复步骤(3)-(5),否则结束或返回步骤(1)。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈奕秋
申请(专利权)人:上海欧姆龙计算机有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1