一种汉字输入方法和装置制造方法及图纸

技术编号:5962210 阅读:292 留言:0更新日期:2012-04-11 18:40
本发明专利技术的实施例提供了一种汉字输入方法和装置,可解决现有技术汉字输入速度慢的问题。所述方法包括:获取拼音串;根据词典对所述拼音串进行切分以获得拼音串的拼音子串;根据词典获取与拼音子串对应的候选词条,以及该候选词条对应的出现概率、其它词条出现条件下该候选词条的出现概率、该候选词条的词性;根据上述候选词条自左向右计算每一候选词条的权重;并根据候选词条的权重确定输入结果。本发明专利技术的实施例,由于考虑了词的词性,由于词性有一定的约束关系,通过这种约束关系,会提高了输入拼音串对应汉字的正确性,进而提高了输入速度。

【技术实现步骤摘要】

本专利技术涉及一种汉字输入技术,尤其涉及一种汉字输入方法和装置
技术介绍
在打字的时候,我们需要使用输入法系统记录想要表达的信息,而这些信息中很 大的一部分都是较长的句子,将拼音一次完整输入并得到想要的句子,这就需要使用输入 法系统中的一个重要功能-智能组句。我们知道同一个拼音串可以对应多个词、词条或者 句子,输入法系统为了更大可能的向用户提供该拼音所表达的信息,目前输入法系统主要 根据词条出现的概率找到出现概率最大的词条、短语或者句子作为备选项。在输入汉字的时候输入法系统提供的备选词一般是选择日常生活中出现概率较 高的词条、词条以及英文单词按照降序排列的。当输入较长的句子时,就使用智能匹配算法 组合出共现概率最大的句子作为备选项。例如在输入拼音串xian'cheng之后,根据该拼音 串对应的各个词条出现的频率(或者概率)进行排序,“县城”会排在“现成”和“线程”前 面,而“先乘”这样的词条因为出现次数较少,没有被记录到输入法系统的词库选中。在输入一句话时,输入法系统会根据输入的拼音进行切分,再根据词出现的频率 找到共现概率最大的句子。例如图1所示。如图1所示,对于输入的拼音串“bushoufanshiqinrao”,经过对拼音串进行单汉 字对应的拼音子串切分以后的结果是“bu’ shou' fan' shi’ qin' rao”,这些拼音子串可对 应下列单字“不收饭是亲绕”或者“部受烦事秦饶”等等,再根据单字拼成词,每一个词由一 个长弧线标识。如图1所示,由字拼接成的词所对应的拼音子串有“bUShoU”、“fanShi”、 “ qinrao ”,其中,拼音子串“bushou,,可对应“不受”、“不收”等词、拼音子串“ fanshi,,对应 “凡是”、“凡是”等词、拼音子串“qinrao”对应“侵扰”等词。目前的方法是根据前后两个 词A、B出现的概率P (Ai I Ai^1),当前词条出现的概率P (Ai),结合隐性马尔科夫模型,求得整 句出现的最大概率。一般的公式为IogP (Ai I Ai.,) +bxlogP(Ai)+K)。根据以上的公式,可以计算出Weight(Sl)、Weight (S2)......等的概率值,选择拥有最大概率P(S)的整句S作为智能组句的输出。目前的技术虽然在一定程度上能够很好的满足智能组句的需求,但是还是会有一 定的问题。现在的方法只是考虑了词出现的频率以及两个词的共现概率,并没有考虑词条 的属性等其他关系。由于词条的数量是巨大的,二元组数量会成平方关系,当前的输入法系 统为了将这些海量的关系存储在有限的空间当中,只能去掉一些不重要的关系。这在一定 程度上影响了智能组句的准确率。而且,单一的使用词条之间的条件概率和出现的频率并 不能很好的解决所有的问题。如图1所示,输入法系统很自然的将“不受凡事侵扰”,翻译成 “不受凡是侵扰”。因此,在输入过程中,用户不得不更改输入结果,从而导致输入速度慢的 问题。
技术实现思路
本专利技术的实施例提供了一种汉字输入方法和装置,可解决现有技术汉字输入速度 慢的问题。本专利技术的实施例提供了一种汉字输入方法,包括获取拼音串;根据词典对所述 拼音串进行切分以获得拼音串的拼音子串,所述词典包括词条、词条对应的拼音、词条的出 现概率、其它词条出现条件下该词条的出现概率、词性、词性之间的条件概率;从词典中获 取与拼音子串对应的候选词条,以及该候选词条对应的出现概率、其它词条出现条件下该 候选词条的出现概率、该候选词条的词性;根据候选词条的出现概率、其它词条出现条件下 该候选词条的出现概率、所述候选词条的词性自左向右计算每一候选词条的权重;从包括 拼音串的最后拼音子串对应的所有候选词条的权重中,找出权重最大的候选词条,并根据 该权重最大的候选词条确定所述拼音串对应的各个候选词条,将这些候选词条的组合作为 输入结果。本专利技术实施例还提供了一种汉字输入装置,具体包括词典,其包括词条、词条对 应的拼音、词条的出现概率、其它词条出现条件下该词条的出现概率、词性、词性之间的条 件概率;第一获取单元,用于获取拼音串;切分单元,用于根据词典对所述拼音串进行切分 以获得拼音串的拼音子串;第二获取单元,用于从词典中获取与拼音子串对应的候选词条, 以及该候选词条对应的出现概率、其它词条出现条件下该候选词条的出现概率、该候选词 条的词性、词性之间的条件概率;计算单元,用于根据候选词条的出现概率、其它词条出现 条件下该候选词条的出现概率、所述候选词条的词性自左向右计算每一候选词条的权重; 确定单元,用于从包括拼音串的最后拼音子串对应的所有候选词条的权重中,找出权重最 大的候选词条,并根据该权重最大的候选词条确定所述拼音串对应的各个候选词条,将这 些候选词条的组合作为输入结果。本专利技术的实施例,由于考虑了词的词性,由于词性有一定的约束关系,通过这种约 束关系,会提高了输入拼音串对应汉字的正确性,进而提高了输入速度。附图说明图1示出了现有技术的汉字分词方法;图2示出了本专利技术实施例的汉字输入方法;图3示出了本专利技术实施例中的汉字分词方法;图4示出了本专利技术实施例的汉字输入装置。具体实施例方式为了便于本领域一般技术人员理解和实现本专利技术,现结合附图描绘本专利技术的实施例。实施例一如图2所示,本实施例提供了一种汉字输入方法,包括如下步骤步骤21、获取拼音串。步骤22、根据词典对所述拼音串进行切分以获得拼音串的拼音子串,所述词典包 括词条、词条对应的拼音、词条的出现概率、其它词条出现条件下该词条的出现概率、词性、 词性之间的条件概率等。所述拼音子串可以是组成单个汉字的拼音子串,或者可以是组成词的拼音子串。步骤23、从词典中获取与所述拼音子串对应的候选词条或候选字,以及该候选词 条或候选字对应的出现概率、其它词条出现条件下该候选词条或候选字的出现概率、词性。 为描述方便,将候选字或候选词条统称为候选词条,词和词条是同一概念。步骤24、根据候选词条的出现概率、其它词条出现条件下该候选词条的出现概率、 该候选词条的词性自左向右计算每一候选词条的权重;权重的计算公式如下Weight(Ai) = max (Weight (Ai^1) + (aX log (P (Ai | Ai^1)) +b X log (P (Ai)) +c X log (P ( Prop (Ai) I Prop (Ai^1))))其中,i = 1到M,M为拼音串被切分为单个汉字所对应的拼音子串总的数目A 代表第i个位置的词条,Weight(Ai)表示词条&的权重,a、b、c是常数;P(AiIA^1)是指 在词条Ap1的条件下Ai出现的概率;P (Ai)是词条Ai出现的概率,Prop(A)是词A的词性; P (Prop (Ai) Prop (AiJ)是在A^1的词性Prop (AiJ出现的条件下Ai的词性Prop (Ai)出现 的概率。由于上述公式用到了词性,可大大增加组句的正确率。优选地,为了计算候选词条的权重,将这些候选词条对应的拼音子串按照输入的 顺序前后排列起来。由于拼音串可切分成不同组合的各个拼音子串,即对拼音串可有多种 切分方式,每一种切分方式使得拼音串由不同组合的拼音子串组成。这样,切分后的这些不 同组合的拼音子串本文档来自技高网
...

【技术保护点】
1.一种汉字输入方法,其特征在于,包括:获取拼音串;根据词典对所述拼音串进行切分以获得拼音串的拼音子串,所述词典包括词条、词条对应的拼音、词条的出现概率、其它词条出现条件下该词条的出现概率、词性、词性之间的条件概率;从词典中获取与拼音子串对应的候选词条,以及该候选词条对应的出现概率、其它词条出现条件下该候选词条的出现概率、该候选词条的词性;根据候选词条的出现概率、其它词条出现条件下该候选词条的出现概率、所述候选词条的词性自左向右计算每一候选词条的权重;从包括拼音串的最后拼音子串对应的所有候选词条的权重中,找出权重最大的候选词条,并根据该权重最大的候选词条确定所述拼音串对应的各个候选词条,将这些候选词条的组合作为输入结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡衡董恭谨李洋
申请(专利权)人:新浪网技术中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1