汉字输入系统中的拼音字词关系表自动登录方法及装置制造方法及图纸

技术编号:2888682 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种汉字拼音输入系统中使用的拼音字词关系表的自动登录方法以及装置。关系表的大小将直接关系到汉字输入系统的正确性和速度。本发明专利技术的方法包含下列步骤:输入汉字句子;查找已有的拼音字词关系表,将句子分割成字段;查找两个及两个以上连续的单字字段;把使用频度都小于第一频度阈值或者平均使用频度小于第一频度阈值的所述两个及两个以上连续单字字段组成新词,登录到所述拼音字词关系表中。本发明专利技术还提供了实现这种方法的装置。(*该技术在2017年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及汉字的拼音输入系统,尤其涉及汉字输入系统中使用的拼音字词关系表的登录方法以及装置。本专利技术与本申请人与同日提出的名称为“拼音汉字变换方法及其系统”的专利技术专利申请有关。本申请援引该专利申请,作为参考。在该申请中,提供了一种拼音汉字变换方法及其系统,在这种方法和系统中,利用了拼音字词关系表查找输入的拼音码所对应的字或词,以利用提高输入速度。而拼音字词关系表的数据量大小将直接影响到其作用的大小。即,关系表的数据量越大,越有利于转换的正确性和速度。本专利技术的目的就是提供一种拼音字词关系表的自动登录方法。利用这种方法,在汉字拼音输入系统中,可以自动地登录拼音字词关系表中原先没有的拼音与字词之间的关系,自动地扩充关系表。本专利技术的另一个目的在于提供一种拼音字词关系表自动登录装置,这种装置可以自动地登录拼音字词关系表中原先没有的拼音与字词之间的关系,自动地扩充关系表。本专利技术的拼音字词关系表自动登录方法包含下列步骤(1)输入汉字句子;(2)查找已有的拼音字词关系表,将句子分割成字段;(3)查找两个及两个以上连续的单字字段;(4)把使用频度都小于第一频度阈值或者平均使用频度小于第一频度阈值的所述两个及两个以上连续单字字段组成新词,登录到所述拼音字词关系表中。本专利技术还提供了一种实现本专利技术方法的拼音字词关系表自动登录装置,包含拼音字词关系表,用于存储拼音与所对应词的映射关系,以及这些对应的字和词的使用频度;输入装置,用于输入汉语句子;句子分割装置,与所述输入装置和所述拼音字词关系表相连,用于根据所述拼音字词关系表中已存储的词把所述输入装置输入的汉语句子分割成字段;连续单字字段查找装置,与所述句子分割装置相连,用于查找两个或两个以上连续的单字字段;组词装置,与所述连续单字字段查找装置相连,用于把所述连续单字字段查找装置找到的每个单字字段的使用频度都小于或者平均使用频度小于第一频度阈值的连续单字字段组成新词;登录装置,与所述登录装置相连,把所述组词装置组成的新词登录到所述拼音字词关系表中。如上所述,只要用户输入或者提供一句汉语句子,本方法或装置就能自动地从中找出拼音字词关系表中没有存储的新词进行登录,从而自动地扩充关系表。下面结合附图详细描述本专利技术的实施例。附图说明图1是本专利技术的拼音字词关系表自动登录方法第一实施例的流程图;图2是本专利技术的拼音字词关系表自动登录方法第二实施例的流程图;图3是本专利技术的拼音字词关系表自动登录方法第三实施例的部分流程图;图4是本专利技术的拼音字词关系表自动登录装置的实施例的方框图;图5是图4的拼音字词关系表自动登录装置的改进实施例的方框图。下面首先参照图1来描述本专利技术的拼音字词关系表自动登录方法第一实施例的流程。请参见图1,图1示出了本专利技术的拼音字词关系表自动登录方法第一实施例的流程图。首先,在步骤S1输入汉字句子。汉字句子可以通过输入装置,如键盘、一个现成的文本文件等输入。在本实施例中,为便用说明和理解,我们假设输入的句子为“热烈庆祝香港回归”。然后,在步骤S2,把输入的句子分割成字段。即,对照已有的拼音字词关系表,把句子中与已有的拼音字词关系表中存储的词一致的词分割成一个字段。在本例中,假设拼音字词关系表中已经存储了“热烈”、“庆祝”和“回归”。则,把这一句子分割成这些字段“热烈”、“庆祝”、“香”、“港”、“回归”。在步骤S3,先设置一个指针,并把指针置于第一字段“热”、然后进入到步骤S4,按字段顺序判别是否有两个或两个以上的连续的字段、在本例中,第一个字段为“热烈”,不是单字字段,而流程进入到步骤S12,继续寻找两个及两个以上连续的单字字段。在字段“香”和“港”处,找到了两个连续的单字字段,则流程从步骤S4进入到步骤S5,判别这些字段的使用频度是否都小于第一使用频度阈值或者判别这些字段的平均使用频度是否小于该第一使用频度阈值。这一使用频度阈值是预先设定的。可以通过试验来确定。设置这一阈值的目的由于低频字在输入时往往不容易被选中,而高频字易被选中,所以尽量把低频字组合成词,而不把高频字组成新词。通过大量试验,该第一使用频度阈值的范围在50至60之间较佳。如果单字字段“香”和“港”的使用频度都小于第一使用频度阈值,或者这两个单字字段的平均使用频度小于第一使用频度阈值,则流程进入到步骤S7,把这些单字字段组成新词,然后,在步骤S11,把该新词登录到拼音字词关系表中。流程进入到步骤S12,判断句子是否已处理完,如果没有处理完,则在步骤S13将指针移到后一未处理字段,返回到步骤S4。如果已处理完,则进入步骤S14,结束登录。图2示出了本专利技术的拼音字词关系表自动登录方法的第二实施例的流程图。图2所示的方法是对图1所示方法的改进。它在图1的基础上增加了步骤S8至S11以及S6。我们以“希特勒是一个战争狂”为例。与图1的实施例一样,在步骤S1,输入上述句子。在步骤S2将句子分割成这样一些字段“希”、“特”、“勒”、“是”、“一个”、“战争”、“狂”。由于字段“希”、“特”、“勒”的使用频度满足小于第一使用频度的要求,所以与上述一样,经过步骤S4、S5、S7、S11把这些字段组成新词“希特勒”登录到拼音字词关系表中。对于字段“是”“一个”和“战争”则不满足上述条件,所以不进入登录,最后指针指向字段“狂”。由于该字段“狂”只有一个单字字段,故在步骤S4,流程进入到步骤S8,并在步骤S8判断该字段是否为单字字段。由于前面的字段“一个”、“战争”不是单字字段,所以处理到这些字段时,流程从步骤S8转至S12。而对于字段“狂”,它是一个单字字段,所以流程进入到步骤S9,在步骤S9判断该单字字段的使用频度是否小于第二使用频度阈值。该第二使用频度阈值与第一实施例中的第一使用频度阈值一样,也是预定的,只是它比第一使用频度阈值更低。其作用是为了把使用频度更低的字与其它词连接,以便于输入。该值也可以通过试验获得。通过大量试验,该第二使用频度阈值取20为较佳。由于前面的字段“是”虽然是一个单字字段,但由于其使用频度大于第二使用频度阈值,所以在步骤S9进入到步骤S12。而本字段“狂”的使用频度小于第二使用频度阈值,所以流程继续进入到步骤S10,把该单字字段与前一字段或后一字段组成新词。与前一字段连接还是与后一字段连接,都是可以的,但作为一种方式,在本实施例中确定如果有前一字段,则与前一字段相接;如本例中有前一字段“战争”,就与前一字段连接成新词“战争狂”。如果没有前一字段,则与后一字段连接。连接成新词后,流程进入到步骤S11,把该新词登录到拼音字词关系表中,然后进入步骤S12。下面以“邓小平会见撒切尔夫人”为例,来说明步骤S6。在步骤S1输入该句子。然后,在步骤S12把该句子分割成下列字段“邓”、“小”、“平”、“会见”、“撒”、“切”、 “尔”、“夫人”。在步骤S3把指针设置到第一字段“邓”上,然后,在步骤S4找到的三个连续的单字字段“邓”、“小”、“平”。流程进入到步骤S5,由于这三个单字字段的平均使用频度大于第一使用频度阈值,所以流程不进入到步骤S7而是进入到步骤S6,判别这些连续的单字字段中是否有小于第二使用频度阈值的单字字段。经判别,假设字段“邓”的使用频度小于第二频度阈值,所以流程转向步骤S10把本文档来自技高网...

【技术保护点】
一种拼音字词关系表自动登录方法,其特征在于,包含下列步骤:(1)输入汉字句子;(2)查找已有的拼音字词关系表,将句子分割成字段;(3)查找两个及两个以上连续的单字字段;(4)把使用频度都小于第一频度阈值或者平均使用频度小于第 一频度阈值的所述两个及两个以上连续单字字段组成新词,登录到所述拼音字词关系表中。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈奕秋
申请(专利权)人:上海欧姆龙计算机有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1