一种智能组词输入的方法和一种输入法系统及其更新方法技术方案

技术编号:2839765 阅读:250 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种在输入法系统中智能组词输入的方法,包括:从预置的互联网语料库中,获取至少两个基础字词之间的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;接收用户输入的编码字符串,并对所述编码字符串进行切分;根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。本发明专利技术可以有效提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,避免无效、重复的计算过程,进而有效提高了用户的输入效率。

【技术实现步骤摘要】

本专利技术涉及输入法系统数据处理领域,特别是涉及一种智能组词输入的方法、一种输入法系统、一种生成多元表的装置以及一种更新输入法系统的方法。
技术介绍
当前的输入法系统(包括中文、日文以及韩文等等)都不可避免地存在相同编码对应多个候选词的问题,以拼音输入法为例,如拼音加加输入法、紫光华宇拼音输入法等,这种现有的输入法都是基于其词库以及词库中的词频(字词的使用频度)来为用户在信息输入过程中提供候选词的排序,优先显示词频最高的常用字词,即首选词。候选词的排序是用户在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命中率是指,当用户输入一定的键盘信息后,排序在前的字、词或句是用户最需要的。例如,输入拼音“guan xi tui 1i”(关系推理),所述现有的输入法会根据拼音“guan xi”获取词库中所有的候选词,如“关系”、“盥洗”和“关西”等,然后优先显示词频最高的常用词“关系”为首选词,同时,根据“tui li”获取词库中词频最高的词“推理”为首选词,组成“关系推理”提供给用户输入。在此例中,首选词的命中率是100%,即完全符合用户的需要。当然,从技术上讲,输入法系统本身是无法知悉哪个字词是用户最需要的,但是在浩如烟海的中文字词中,各个字词的使用和出现频率是不同的,将出现频率较高的字词排序在前就可以大大提高输入法系统的首选词命中率,即可以从概率上提高排序在前的字词满足用户需要的可能性。然而,如果用户所需要的字词并不对应于词频最高的字词,例如,用户输入“zi zhu xue xiao”(资助学校),而输入法对应地获取到词频最高的词为“自主学校”,在这种情况下,就需要用户在所有候选词中选择“资助”,以获得所需要的结果。在实际中,用户采用现有的输入法通过选择候选词获得需要的结果的机率比直接获取到有效首选词的机率要高得多,这就表明,现有输入法的首选词命中率并不高,从而导致用户的输入速度减慢,输入效率降低,用户体验差。对于上述问题,现有技术提出了以下两种解决办法第一种、增加所述输入法词库中的字词;在这种情况下,所述输入法的词库中需要增加足够多的字词,才能达到相应的效果。例如,如果用户想要输入“智能组词”,则必须在词库中存储“智能”、“组词”和“智能组词”三个词,甚至可能还必须存储“智能组”这种没有具体含义的词。对于一些多个词组成的词组或句子,所需要添加的词将更多。这样一来,词库会越来越臃肿,同时会占用更多的空间、浪费更多的资源。第二种、应用NLP(Nature Language Process自然语言处理)技术。在所述输入法系统中应用这种技术可以通过词性、句法分析等方式提高首选词命中率,例如,微软拼音输入法就应用了一种NLP技术,该技术把N-gram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程,主要根据《现代汉语语法信息词典详解》和《同义词词林》的语法语义分类体系,通过总结各种词性之间的语法语义,以及人工编辑这些词类之间的搭配规则和相应的属性词汇集来体现。然而,实现这种输入法系统需要本领域技术人员基于固定语料库进行分析和编辑,技术实现过程复杂且繁琐;并且所述固定语料库也不能进行任意更新,导致用户体验差;此外,这种输入法系统需要占用较大的空间,比如微软拼音输入法,其安装包的大小就超过了70兆,使用门槛较高,浪费用户的系统资源。因此,现阶段需要本领域技术人员迫切解决的一个技术问题就是,如何在尽可能地节约资源的情况下,提高输入法系统对于多个字词、词组、短语、短句或长句的首选词命中率。
技术实现思路
本专利技术所要解决的技术问题是提供一种智能组词输入的方法和一种输入法系统,以解决现有技术中对于多个字词、词组、短语、短句或长句的首选词命中率不高、资源占用过多等问题。本专利技术的另一个目的是提供了一种生成多元表的方法以及一种更新输入法系统的方法,以保证输出字词的准确性、代表性和全面性,从而提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,进而有效提高了用户的输入效率。为了解决上述技术问题,本专利技术实施例公开了一种智能组词输入的方法,包括从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;接收用户输入的编码字符串,并对所述编码字符串进行切分;根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。优选的是,所述的方法,还包括根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。优选的是,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述的方法还包括根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。优选的是,所述多元表存储有连接强度值,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得,所述的方法还包括根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。优选的是,所述的方法,还包括从输入法系统的词库中选取符合预置条件的基础字词。优选的是,所述的方法,在生成多元表之前,还包括 如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息。优选的是,通过以下步骤预置所述互联网语料库通过网络爬虫技术获取互联网的网页;选取符合预置条件的网页信息,并保存形成互联网语料库。优选的是,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。优选的是,所述的方法,在接收用户输入的编码字符串之前还包括步骤将所述多元表加载至存储设备中。优选的是,所述的方法,还包括对所述编码字符串的切分方法进行优化。优选的是,所述的方法,还包括根据用户新增的编码字符串在所述多元表中获取对应的组合信息。本专利技术实施例还提供了一种输入法系统,所述输入法系统包括输入接口单元和显示单元,还包括多元表所述多元表由至少两个基础字词相邻同现的组合信息生成;所述组合信息从预置的互联网语料库中获取,包括所述至少两个基础字词之间的搭配关系和相邻同现频率;切分单元用于对用户输入的编码字符串进行切分;提取单元用于根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。优选的是,所述输入法系统还包括第一输出单元用于根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。优选的是,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述输入法系统还包括第二输出单元用于根据所述候选字本文档来自技高网
...

【技术保护点】
一种智能组词输入的方法,其特征在于,包括:从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;接收用户输入的编 码字符串,并对所述编码字符串进行切分;根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。

【技术特征摘要】
1.一种智能组词输入的方法,其特征在于,包括从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;接收用户输入的编码字符串,并对所述编码字符串进行切分;根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。2.如权利要求1所述的方法,其特征在于,还包括根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。3.如权利要求1所述的方法,其特征在于,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述的方法还包括根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。4.如权利要求1所述的方法,其特征在于,所述多元表存储有连接强度值,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得,所述的方法还包括根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。5.如权利要求1所述的方法,其特征在于,还包括从输入法系统的词库中选取符合预置条件的基础字词。6.如上述任一项权利要求所述的方法,其特征在于,在生成多元表之前,还包括如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息。7.如上述任一项权利要求所述的方法,其特征在于,通过以下步骤预置所述互联网语料库通过网络爬虫技术获取互联网的网页;选取符合预置条件的网页信息,并保存形成互联网语料库。8.如权利要求7所述的方法,其特征在于,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。9.如权利要求1所述的方法,其特征在于,在接收用户输入的编码字符串之前还包括步骤将所述多元表加载至存储设备中。10.如权利要求1所述的方法,其特征在于,还包括对所述编码字符串的切分方法进行优化。11.如权利要求1或10所述的方法,其特征在于,还包括根据用户新增的编码字符串在所述多元表中获取对应的组合信息。12.一种输入法系统,包括输入接口单元和显示单元,其特征在于,所述输入法系统还包括多元表所述多元表由至少两个基础字词相邻同现的组合信息生成;所述组合信息从预置的互联网语料库中获取,包括所述至少两个基础字词之间的搭配关系和相邻同现频率;切分单元用于对用户输入的编码字符串进行切分;提取单元用于根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。13.如权利要求12所述的系统,其特征在于,所述输入法系统还包括第一输出单元用于根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。14.如权利要求12所述的系统,其特征在于,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库...

【专利技术属性】
技术研发人员:郭奇
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1