【技术实现步骤摘要】
一种字词输入方法及系统
本专利技术涉及输入法
,特别是涉及一种字词输入方法及系统。
技术介绍
随着计算机、互联网等技术应用的越来越广泛,人们很多的日常工作和娱乐都在计算机上进行,用户越来越频繁地需要通过计算机输入信息而完成人机交互。对于中文、日文、韩文等用户而言,一般需要通过输入法程序与计算机进行交互。以中文用户为例,一般来说,用户输入的是一串字母(通常是汉字的拼音)或笔画等编码字符串,系统需要把它转换成相应的中文字符。然而用户在进行字词输入的过程中可能存在较多的错误,这里涉及的输入错误,大致可以分为认知错误和非认知错误两类。认知错误是那些不知道欲输入的字词如何正确拼写,造成的输入错误,模糊音就属于认知错误这个范畴。而非认知错误是指,知道字词如何拼写,但是由于输入时手忙脚乱或者受制于输入设备等而造成了输入错误。目前,一些输入法系统提供了纠错设置,参见图1,这种方法通常根据大量的用户输入数据训练生成纠错列表;在生成候选之前根据纠错列表中的规则进行强制纠错,例如,根据图1所示的纠错列表,如果用户的输入序列中出现了gn,便直接将其转换为ng。这种方法虽然在一定程度上实现了自动纠错,但也存在一些缺点,例如,纠错列表是默认预置的,并且列表中的错误片段与正确片段之间是一一对应的。在用户输入的过程中,会将命中了纠错列表的输入片段作为错误输入片段,纠错时,只能将纠错列表中与该错误输入片段对应的片段作为纠错结果。这种方法仅针对一些常见的输入错误比较有效,但是,对于实际应用中的一些不常见的输入错误,这种方法的有效性比较低。因此,需要本领域技术人员迫切解决的一个技术问题就 ...
【技术保护点】
1.一种字词输入方法,其特征在于,包括:检测用户输入的编码字符串中存在的错误输入片段;根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串;将所述纠错候选字符串转换为输入文字。
【技术特征摘要】
1.一种字词输入方法,其特征在于,包括:检测用户输入的编码字符串中存在的错误输入片段;其中,所述编码字符串包括字母、数字、笔画中的一种或者几种;根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串,所述合法字符组集合为预先采用对语料库进行统计的方法,基于合法的编码字符串建立的合法字符组集合,合法的编码字符串是指符合语言规则的字符串;将所述纠错候选字符串转换为输入文字。2.根据权利要求1所述的方法,其特征在于,所述检测用户输入的编码字符串中存在的错误输入片段包括:根据当前语境,对所述用户输入的编码字符串进行分词,将得到的分词碎片确定为错误输入片段。3.根据权利要求1所述的方法,其特征在于,所述检测用户输入的编码字符串中存在的错误输入片段包括:如果所述用户输入的编码字符串中存在不属于所述合法字符组集合的字符组,或者基于合法字符组集合统计的合法概率小于阈值的字符组,则该字符组为错误输入片段。4.根据权利要求1所述的方法,其特征在于,所述合法字符组集合通过以下方式获得:从至少两个文字的合法编码字符串连接而成的字符串中抽取合法字符组。5.根据权利要求1所述的方法,其特征在于,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:对所述错误输入片段分别进行基于字符的替换、插入、删除及交换的处理;如果处理后的片段属于所述合法字符组集合,则基于该处理后的片段生成纠错候选字符串。6.根据权利要求5所述的方法,其特征在于,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:去除合法字符组中设定位置的至少一个字符,将其他剩余字符按设定顺序排列作为所述被去除字符的索引;以合法字符组集合的若干个所述索引及对应的被去除字符组成反查字符组集合;当需要对所述错误输入片段在所述设定位置进行字符的替换或插入时,根据所述错误输入片段以所述设定顺序生成查询串;从所述反查字符组集合中获取以所述查询串为索引的字符,将该字符作为在所述设定位置替换或插入的字符,得到纠错候选字符串。7.根据权利要求6所述的方法,其特征在于,所述设定位置包括合法字符组中首字符位置以外的其他位置。8.根据权利要求6所述的方法,其特征在于,所述合法字符组集合及所述反查字符组集合以树形结构进行保存。9.根据权利要求1至8任一项所述的方法,其特征在于,所述将纠错候选字符串转换为输入文字包括:对所述纠错候选字符串进行评估;根据评估的结果,对所述编码字符串及符合预置条件的纠错候选字符串进行转换,并向用户展现转换的结果。10.根据权利要求1至8任一项所述的方法,其特征在于,还包括:将所述用户输入的编码字符串发送到远端服务器,并接收所述远端服务器返回的纠错候选字符串。11.根据权利要求1至8任一项所述的方法,其特征在于,还包括:如果所述用户输入的编码字符串命中设定词库,根据所述设定词库将所述编码字符串转换为输入文字。12.一种字词输入系统,其特征在于,包括...
【专利技术属性】
技术研发人员:张扬,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。