一种智能组词输入的方法和一种输入法系统及其更新方法技术方案

技术编号：2839765 阅读：250 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种在输入法系统中智能组词输入的方法，包括：从预置的互联网语料库中，获取至少两个基础字词之间的组合信息，所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率；根据所述组合信息生成多元表；接收用户输入的编码字符串，并对所述编码字符串进行切分；根据所述切分后的编码字符串在所述多元表中获取对应的组合信息，并提取所述组合信息中相应搭配关系的对应字词为候选字词。本发明专利技术可以有效提高用户输入多个字词、词组、短语、短句或长句的首选词命中率，避免无效、重复的计算过程，进而有效提高了用户的输入效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及输入法系统数据处理领域，特别是涉及一种智能组词输入的方法、一种输入法系统、一种生成多元表的装置以及一种更新输入法系统的方法。
技术介绍
当前的输入法系统(包括中文、日文以及韩文等等)都不可避免地存在相同编码对应多个候选词的问题，以拼音输入法为例，如拼音加加输入法、紫光华宇拼音输入法等，这种现有的输入法都是基于其词库以及词库中的词频(字词的使用频度)来为用户在信息输入过程中提供候选词的排序，优先显示词频最高的常用字词，即首选词。候选词的排序是用户在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命中率是指，当用户输入一定的键盘信息后，排序在前的字、词或句是用户最需要的。例如，输入拼音“guan xi tui 1i”(关系推理)，所述现有的输入法会根据拼音“guan xi”获取词库中所有的候选词，如“关系”、“盥洗”和“关西”等，然后优先显示词频最高的常用词“关系”为首选词，同时，根据“tui li”获取词库中词频最高的词“推理”为首选词，组成“关系推理”提供给用户输入。在此例中，首选词的命中率是100％，即完全符合用户的需要。当然，从技术上讲，输入法系统本身是无法知悉哪个字词是用户最需要的，但是在浩如烟海的中文字词中，各个字词的使用和出现频率是不同的，将出现频率较高的字词排序在前就可以大大提高输入法系统的首选词命中率，即可以从概率上提高排序在前的字词满足用户需要的可能性。然而，如果用户所需要的字词并不对应于词频最高的字词，例如，用户输入“zi zhu xue xiao”(资助学校)，而输入法对应地获取到词频最高的词为“自主学校”，在...

【技术保护点】
一种智能组词输入的方法，其特征在于，包括：从预置的互联网语料库中，获取至少两个基础字词相邻同现的组合信息，所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率；根据所述组合信息生成多元表；接收用户输入的编码字符串，并对所述编码字符串进行切分；根据所述切分后的编码字符串在所述多元表中获取对应的组合信息，并提取所述组合信息中相应搭配关系的对应字词为候选字词。

【技术特征摘要】
1.一种智能组词输入的方法，其特征在于，包括从预置的互联网语料库中，获取至少两个基础字词相邻同现的组合信息，所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率；根据所述组合信息生成多元表；接收用户输入的编码字符串，并对所述编码字符串进行切分；根据所述切分后的编码字符串在所述多元表中获取对应的组合信息，并提取所述组合信息中相应搭配关系的对应字词为候选字词。2.如权利要求1所述的方法，其特征在于，还包括根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率，以及，根据所述同现概率进行排序，并将排序结果作为候选项输出。3.如权利要求1所述的方法，其特征在于，所述多元表存储有同现概率，所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得，所述的方法还包括根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值，以及，根据所述权重值进行排序，并将排序结果作为候选项输出。4.如权利要求1所述的方法，其特征在于，所述多元表存储有连接强度值，所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得，所述的方法还包括根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值，以及，根据所述权重值进行排序，并将排序结果作为候选项输出。5.如权利要求1所述的方法，其特征在于，还包括从输入法系统的词库中选取符合预置条件的基础字词。6.如上述任一项权利要求所述的方法，其特征在于，在生成多元表之前，还包括如果一组合信息中的相邻同现频率低于一定阈值，则去除该组合信息；如果一组合信息中的对应字词为两个或者多个词频最高的字词组成，则去除该组合信息；如果一条组合信息被另一条组合信息部分或全部覆盖的，则去除该组合信息。7.如上述任一项权利要求所述的方法，其特征在于，通过以下步骤预置所述互联网语料库通过网络爬虫技术获取互联网的网页；选取符合预置条件的网页信息，并保存形成互联网语料库。8.如权利要求7所述的方法，其特征在于，所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。9.如权利要求1所述的方法，其特征在于，在接收用户输入的编码字符串之前还包括步骤将所述多元表加载至存储设备中。10.如权利要求1所述的方法，其特征在于，还包括对所述编码字符串的切分方法进行优化。11.如权利要求1或10所述的方法，其特征在于，还包括根据用户新增的编码字符串在所述多元表中获取对应的组合信息。12.一种输入法系统，包括输入接口单元和显示单元，其特征在于，所述输入法系统还包括多元表所述多元表由至少两个基础字词相邻同现的组合信息生成；所述组合信息从预置的互联网语料库中获取，包括所述至少两个基础字词之间的搭配关系和相邻同现频率；切分单元用于对用户输入的编码字符串进行切分；提取单元用于根据所述切分后的编码字符串在所述多元表中获取对应的组合信息，并提取所述组合信息中相应搭配关系的对应字词为候选字词。13.如权利要求12所述的系统，其特征在于，所述输入法系统还包括第一输出单元用于根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率，以及，根据所述同现概率进行排序，并将排序结果作为候选项输出。14.如权利要求12所述的系统，其特征在于，所述多元表存储有同现概率，所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库...

【专利技术属性】
技术研发人员：郭奇，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人