获取新编码字符串的方法及输入法系统、词库生成装置制造方法及图纸

技术编号：2844865 阅读：308 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种获取输入法字词的新编码字符串的方法，包括：提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；将用户所选字词、用户输入的编码字符串与现有词库进行比对，所述现有词库中存储有现有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。本发明专利技术从用户输入的角度提供解决方案，能够及时的、较为全面的获悉用户在输入过程中的使用的新编码字符串，包括反映用户的方言习惯的新编码字符串，以及未知的、无法想象到的，但是用户经常使用的新编码字符串，进而提高首选词的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及输入法领域，特别是涉及一种获取输入法字词的新编码字符串的方法及输入法系统、词库生成装置。
技术介绍
现有的输入法系统都是根据用户输入的编码字符串，匹配得到用户所需的字词，例如，中文、目文以及韩文等等输入法系统。在现有输入法的系统词库中为每一个字词设定了一个相应的编码字符串，用户只有输入正确的编码字符串才能获得所需的字词。但是用户对于正确的编码字符串有一个学习的过程，很难保证用户认知的所有编码字符串与字词的对应都是正确的，所以现有的输入法系统为了提高容错性和满足一些用户对编码字符串的习惯，提出了模糊音的解决方案，例如，z＝zh，s＝sh，in＝ing等等。模糊音的解决方案固然可以解决一些由于南北语言习惯导致的相同字词对应的编码字符串存在差异的问题。但是由于各地区都有各自的方言(尤其对于中文这样方言众多的文字而言)，这样当用户利用拼音码输入字词，多多少少在输入编码时都会存在着不太准确的问题，上述模糊音解决方案并不能解决所有的问题。例如，“折了”一词，有的用户习惯输入“shele”、有的用户习惯输入“zhele”；“落下”一词，有的情况需要输入“laxia”、有的情况需要输入“luoxia”；“和牌”一词对应的“hupai”和“hepai”；这些都无法通过模糊音的方式解决。输入法系统词库中不可能获知所有的方言习惯，所以需要用户多次从候选字词中排序靠后的位置选取所需字词，严重影响用户的输入速度。因此，如何尽快尽多的获知用户的方言习惯用法，提高此时的输入法系统首选词的命中率，成为本领域技术人员迫切需要解决的技术问题之一。
技术实现思路
本专利技术所要解...

【技术保护点】
一种获取输入法字词的新编码字符串的方法，其特征在于，包括：提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；将用户所选字词、用户输入的编码字符串与现有词库进行比对，所述现有词库中存储有现有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。

【技术特征摘要】
1.一种获取输入法字词的新编码字符串的方法，其特征在于，包括提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；将用户所选字词、用户输入的编码字符串与现有词库进行比对，所述现有词库中存储有现有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。2.如权利要求1所述的方法，其特征在于，还包括将用户所选字词、用户输入的编码字符串记录至用户词库；并在用户输入过程中，记录用户词频至用户词库，所述用户词频为用户输入该字词及其相应编码字符串的频率信息。3.如权利要求2所述的方法，其特征在于，还包括根据用户输入的当前应用程序，分别加以相应的权重修正后统计词频信息，得到用户词频。4.如权利要求2所述的方法，其特征在于，还包括收集各个用户的具有新编码字符串的字词记录，所述记录包括该字词、相应的新编码字符串以及相应的词频信息；去除重复的字词记录。5.如权利要求4所述的方法，其特征在于，还包括计算用户累积词频；去除用户累积词频小于或者等于预置阈值的编码字符串。6.如权利要求4或5所述的方法，其特征在于，还包括统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。7.如权利要求6所述的方法，其特征在于，还包括比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。8.如权利要求7所述的方法，其特征在于，还包括根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库，得到新词库或者新版的全词库。9.如权利要求8所述的方法，其特征在于，所述收集的信息还包括用户所在的区域信息，将用户划分为若干区域；针对每个区域进行过滤步骤；针对每个区域生成区域新词库或者新版的区域全词库。10.如权利要求6所述的方法，其特征在于，通过以下步骤获得预置的互联网页面数据库对互联网页面进行权重赋值；将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。11.如权利要求4所述的方法，其特征在于，所述收集为输入法计算设备实时或者定时的将用户的具有新编码字符串的字词记录发送至收集计算设备。12.一种获取输入法字词的新编码字符串的方法，其特征在于，包括提取用户在输入过程中所选择的字词，以及用户输入的编码字符串，并存储至用户词库；收集各个用户的用户词库；对比所述收集的用户词库和输入法现有词库，所述系统词库中存储有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。13.如权利要求12所述的方法，其特征在于，还包括所述用户词库中还包括用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；计算用户累积词频；去除用户累积词频小于或者等于预置阈值的编码字符串。14.如权利要求13所述的方法，其特征在于，所述预置的规则为如果用户所选字词在现有词库中存在，但是用户输入的编码字符串与现有词库中存储的该字词相应的编码字符串不同，则确定用户输入的编码字符串为该字词相应的新编码字符串；或者，如果用户所选字词及用户输入的编码字符串在现有词库中都存在，则进一步比较该字词相应的编码字符串的用户累积词频和系统词频，所述系统词频为在现有词库中预置的现有字词相应的词频信息，如果用户累积词频与系统词频的比值大于或者等于预定阈值，则确定用户输入的编码字符串为该字词相应的新编码字符串。15.如权利要求12或者14所述的方法，其特征在于，还包括统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。16.如权利要求15所述的方法，其特征在于，还包括比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。17.一种输入法系统，包括输入接口单元、显示单元以及系统词库，其特征在于，还包括字词提取单元，与输入法系统相连，用于提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；字词比对单元，与字词提取单元相连，用于将用户所选字...

【专利技术属性】
技术研发人员：郭奇，佟子健，杨磊，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人