一种字词输入方法及系统技术方案

技术编号:6112349 阅读:147 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种字词输入方法及系统,其中,所述方法包括:检测用户输入的编码字符串中存在的错误输入片段;根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串;将所述纠错候选字符串转换为输入文字。通过本发明专利技术,能够在在字词输入过程中,更有效地进行纠错,并且适用范围比较广泛。

【技术实现步骤摘要】
一种字词输入方法及系统
本专利技术涉及输入法
,特别是涉及一种字词输入方法及系统。
技术介绍
随着计算机、互联网等技术应用的越来越广泛,人们很多的日常工作和娱乐都在计算机上进行,用户越来越频繁地需要通过计算机输入信息而完成人机交互。对于中文、日文、韩文等用户而言,一般需要通过输入法程序与计算机进行交互。以中文用户为例,一般来说,用户输入的是一串字母(通常是汉字的拼音)或笔画等编码字符串,系统需要把它转换成相应的中文字符。然而用户在进行字词输入的过程中可能存在较多的错误,这里涉及的输入错误,大致可以分为认知错误和非认知错误两类。认知错误是那些不知道欲输入的字词如何正确拼写,造成的输入错误,模糊音就属于认知错误这个范畴。而非认知错误是指,知道字词如何拼写,但是由于输入时手忙脚乱或者受制于输入设备等而造成了输入错误。目前,一些输入法系统提供了纠错设置,参见图1,这种方法通常根据大量的用户输入数据训练生成纠错列表;在生成候选之前根据纠错列表中的规则进行强制纠错,例如,根据图1所示的纠错列表,如果用户的输入序列中出现了gn,便直接将其转换为ng。这种方法虽然在一定程度上实现了自动纠错,但也存在一些缺点,例如,纠错列表是默认预置的,并且列表中的错误片段与正确片段之间是一一对应的。在用户输入的过程中,会将命中了纠错列表的输入片段作为错误输入片段,纠错时,只能将纠错列表中与该错误输入片段对应的片段作为纠错结果。这种方法仅针对一些常见的输入错误比较有效,但是,对于实际应用中的一些不常见的输入错误,这种方法的有效性比较低。因此,需要本领域技术人员迫切解决的一个技术问题就是:如何提供一种更有效、应用范围更广的纠错方案。
技术实现思路
本专利技术提供一种字词输入方法及系统,能够在在字词输入过程中,更有效地进行纠错,并且适用范围比较广泛。本专利技术提供了如下方案:一种字词输入方法,包括:检测用户输入的编码字符串中存在的错误输入片段;根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串;将所述纠错候选字符串转换为输入文字。其中,所述检测用户输入的编码字符串中存在的错误输入片段包括:根据当前语境,对所述用户输入的编码字符串进行分词,将得到的分词碎片确定为错误输入片段。其中,所述检测用户输入的编码字符串中存在的错误输入片段包括:如果所述用户输入的编码字符串中存在不属于所述合法字符组集合的字符组,或者基于合法字符组集合统计的合法概率小于阈值的字符组,则该字符组为错误输入片段。优选地,所述合法字符组集合通过以下方式获得:从至少两个文字的合法编码字符串连接而成的字符串中抽取合法字符组。其中,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:对所述错误输入片段分别进行基于字符的替换、插入、删除及交换的处理;如果处理后的片段属于所述合法字符组集合,则基于该处理后的片段生成纠错候选字符串。优选地,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:去除合法字符组中设定位置的至少一个字符,将其他剩余字符按设定顺序排列作为所述被去除字符的索引;以合法字符组集合的若干个所述索引及对应的被去除字符组成反查字符组集合;当需要对所述错误输入片段在所述设定位置进行字符的替换或插入时,根据所述错误输入片段以所述设定顺序生成查询串;从所述反查字符组集合中获取以所述查询串为索引的字符,将该字符作为在所述设定位置替换或插入的字符,得到纠错候选字符串。优选地,所述设定位置包括合法字符组中首字符位置以外的其他位置。优选地,所述合法字符组集合及所述反查字符组集合以树形结构进行保存。优选地,所述将纠错候选字符串转换为输入文字包括:对所述纠错候选字符串进行评估;根据评估的结果,对所述编码字符串及符合预置条件的纠错候选字符串进行转换,并向用户展现转换的结果。优选地,还包括:将所述用户输入的编码字符串发送到远端服务器,并接收所述远端服务器返回的纠错候选字符串。优选地,还包括:如果所述用户输入的编码字符串命中设定词库,根据所述设定词库将所述编码字符串转换为输入文字。一种字词输入系统,包括:检错单元,用于检测用户输入的编码字符串中存在的错误输入片段;纠错单元,用于根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串;转换单元,用于将所述纠错候选字符串转换为输入文字。其中,所述检错单元包括:第一检错子单元,用于根据当前语境,对所述用户输入的编码字符串进行分词,将得到的分词碎片确定为错误输入片段。其中,所述检错单元包括:第二检错子单元,用于如果所述用户输入的编码字符串中存在不属于所述合法字符组集合的字符组,或者基于合法字符组集合统计的合法概率小于阈值的字符组,则该字符组为错误输入片段。优选地,所述合法字符组集合通过以下方式获得:从至少两个文字的合法编码字符串连接而成的字符串中抽取合法字符组。优选地,所述纠错单元包括:编辑子单元,用于对所述错误输入片段分别进行基于字符的替换、插入、删除及交换的处理;生成子单元,用于如果处理后的片段属于所述合法字符组集合,则基于该处理后的片段生成纠错候选字符串。优选地,所述纠错单元包括:去除子单元,用于去除合法字符组中设定位置的至少一个字符,将其他剩余字符按设定顺序排列作为所述被去除字符的索引;组合子单元,用于以合法字符组集合的若干个所述索引及对应的被去除字符组成反查字符组集合;查询串生成子单元,用于当需要对所述错误输入片段在所述设定位置进行字符的替换或插入时,根据所述错误输入片段以所述设定顺序生成查询串;查询子单元,用于从所述反查字符组集合中获取以所述查询串为索引的字符,将该字符作为在所述设定位置替换或插入的字符,得到纠错候选字符串。优选地,所述设定位置包括合法字符组中首字符位置以外的其他位置。优选地,所述合法字符组集合及所述反查字符组集合以树形结构进行保存。优选地,所述转换单元包括:评估子单元,用于对所述纠错候选字符串进行评估;选择转换子单元,用于根据评估的结果,对所述编码字符串及符合预置条件的纠错候选字符串进行转换,并向用户展现转换的结果。优选地,还包括:云计算单元,用于将所述用户输入的编码字符串发送到远端服务器,并接收所述远端服务器返回的纠错候选字符串。优选地,还包括:词库匹配单元,用于如果所述用户输入的编码字符串命中设定词库,根据所述设定词库将所述编码字符串转换为输入文字。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术实施例在用户进行字词输入的过程中,在发现编码字符串中存在的错误输入片段之后,可以根据预先获取的合法字符组集合,通过对错误输入片段进行编辑操作,得到纠错候选字符串,这样,获取纠错候选字符串的方式更加灵活,进而在根据用户输入的编码字符串以及纠错候选字符串进行音字转换时,也可以获得更多可能的候选项。因此,该方法更加有效,且适用范围比较广泛。另外,本专利技术在对所述错误输入片段进行编辑操作时,使用了反查字符组,这样,针对一些替换或插入操作而言,可以缩小查找范围,从而减少操作次数,提高纠错的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发本文档来自技高网
...

【技术保护点】
1.一种字词输入方法,其特征在于,包括:检测用户输入的编码字符串中存在的错误输入片段;根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串;将所述纠错候选字符串转换为输入文字。

【技术特征摘要】
1.一种字词输入方法,其特征在于,包括:检测用户输入的编码字符串中存在的错误输入片段;其中,所述编码字符串包括字母、数字、笔画中的一种或者几种;根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串,所述合法字符组集合为预先采用对语料库进行统计的方法,基于合法的编码字符串建立的合法字符组集合,合法的编码字符串是指符合语言规则的字符串;将所述纠错候选字符串转换为输入文字。2.根据权利要求1所述的方法,其特征在于,所述检测用户输入的编码字符串中存在的错误输入片段包括:根据当前语境,对所述用户输入的编码字符串进行分词,将得到的分词碎片确定为错误输入片段。3.根据权利要求1所述的方法,其特征在于,所述检测用户输入的编码字符串中存在的错误输入片段包括:如果所述用户输入的编码字符串中存在不属于所述合法字符组集合的字符组,或者基于合法字符组集合统计的合法概率小于阈值的字符组,则该字符组为错误输入片段。4.根据权利要求1所述的方法,其特征在于,所述合法字符组集合通过以下方式获得:从至少两个文字的合法编码字符串连接而成的字符串中抽取合法字符组。5.根据权利要求1所述的方法,其特征在于,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:对所述错误输入片段分别进行基于字符的替换、插入、删除及交换的处理;如果处理后的片段属于所述合法字符组集合,则基于该处理后的片段生成纠错候选字符串。6.根据权利要求5所述的方法,其特征在于,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:去除合法字符组中设定位置的至少一个字符,将其他剩余字符按设定顺序排列作为所述被去除字符的索引;以合法字符组集合的若干个所述索引及对应的被去除字符组成反查字符组集合;当需要对所述错误输入片段在所述设定位置进行字符的替换或插入时,根据所述错误输入片段以所述设定顺序生成查询串;从所述反查字符组集合中获取以所述查询串为索引的字符,将该字符作为在所述设定位置替换或插入的字符,得到纠错候选字符串。7.根据权利要求6所述的方法,其特征在于,所述设定位置包括合法字符组中首字符位置以外的其他位置。8.根据权利要求6所述的方法,其特征在于,所述合法字符组集合及所述反查字符组集合以树形结构进行保存。9.根据权利要求1至8任一项所述的方法,其特征在于,所述将纠错候选字符串转换为输入文字包括:对所述纠错候选字符串进行评估;根据评估的结果,对所述编码字符串及符合预置条件的纠错候选字符串进行转换,并向用户展现转换的结果。10.根据权利要求1至8任一项所述的方法,其特征在于,还包括:将所述用户输入的编码字符串发送到远端服务器,并接收所述远端服务器返回的纠错候选字符串。11.根据权利要求1至8任一项所述的方法,其特征在于,还包括:如果所述用户输入的编码字符串命中设定词库,根据所述设定词库将所述编码字符串转换为输入文字。12.一种字词输入系统,其特征在于,包括...

【专利技术属性】
技术研发人员:张扬
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1