针对拼音输入法的词条检索及错词检测的方法和系统技术方案

技术编号:15041919 阅读:165 留言:0更新日期:2017-04-05 14:13
本发明专利技术公开了一种针对拼音输入法的词条检索及错词检测的方法和系统,所述检索方法包括检测当前输入的拼音串前或后是否有参考词条;如果有前或后参考词条,根据前或后参考词条及当前输入的拼音串,在词库中进行匹配,获得至少一个后或前置词条;如果当前输入的拼音串的前后没有参考词条,根据当前的拼音串在词库中进行匹配获得相应的词条或词条列表。所述错词检测的方法包括根据用户当前输入的拼音串的参考词条得到至少一个前置或后置词条;构建词图;分别进行正逆向对比,错键处理或错序处理;判断外理后的拼音串是否符合拼音规则,如果符合向用户返回所述词图所对应的词条。本发明专利技术提高了输入法中的词条推荐准确率及用户输入纠错的能力。

【技术实现步骤摘要】

本专利技术涉及键盘输入的数字处理技术,具体地说,涉及一种针对拼音输入法的词条检索及错词检测的方法和系统
技术介绍
汉语是互联网世界中使用量占比很大的一种语言,以搜狗输入法为代表的一系列拼音输入法迅速占领了汉语输入法的市场。这些输入法对用户输入的错词有一定的甄别能力,但是面对一些情况的表现却不是很理想。以搜狗输入法为例,当用户输入的拼音出现错误时(拼音中字母写错或字母错序),比如用户希望拼写苹果(pingguo)但是拼写成了pungguo,搜狗输入法的做法是取出拼音字符串中的声母p和g,然后根据用户的热词词库去找以p和g开头的热词,挑选出热度排名靠前的字反馈给用户。这里所述的热词词库是指用户每次输入的词条会被输入法记录下来,由此而建立的词库。当用户再次输入相同拼音时,优先从热词词库中挑选用户的历史词条进行推荐。但是上述的纠错方式存在一定的问题:1.当汉字拼音首字母出现错误时,根据现有机制并不能有效的反馈用户需要的词条。例如,用户希望拼写“中国”(zhongguo),但是按键盘上的z键时不小心按成了旁边的x键,那么输入的字符串变为xhongguo。根据现有技术,首个提供的词条是“小红果”而非用户希望的“中国”。2.现有技术不能够联系上下文获得用户真正希望得到的词条,而是仅凭用户输入的拼音,利用热词词库找出词条。例如,在“图书”后边打ynigxiang,会出现常用词“影响”而不是“影像”;之后在“深远”后边打ynigxiang,会出现“影像”,因为此时的热词已变成“影像”。3.现有算法优先使用热词词库为用户提供待选词条,若用户输入的拼音首字母组合并不存在于用户的热词词库内,则无法进行词条的推荐(该情况通常出现于较长的词条)。例如,用户未输入过“健康一身轻”,用户实际输入jiankangyishneqing,即使声母没有拼错,现有技术也无法检测出用户原本希望的词语,结果为“健康医生呢请”。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种针对拼音输入法的词条检索及错词检测的方法和系统,提高输入法中的词条推荐准确率及对用户输入纠错的能力。为解决上述技术问题,本专利技术提供了一种针对拼音输入法的词条检索方法,具体包括以下步骤:检测当前输入的拼音串前或后是否有参考词条;如果有前或后参考词条,根据前或后参考词条及当前输入的拼音串,在词库中进行匹配,获得至少一个后或前置词条;如果当前输入的拼音串的前后没有参考词条,根据当前的拼音串在词库中进行匹配获得相应的词条或词条列表。优选地,在所述的针对拼音输入法的词条检索方法中,如果当前输入的拼音串同时有前参考词条和后参考词条;在词库中进行匹配时,具体包括以下步骤:根据前参考词条及当前输入的拼音串,在词库中匹配得到第一组词条;根据后参考词条及当前输入的拼音串,在词库中匹配得到第二组词条;将所述第一组词条和第二组词条的合集作为与当前输入的拼音串对应的候选词条集。优选地,在所述的针对拼音输入法的词条检索方法中,如果当前输入的拼音串的前后没有参考词条,根据当前的拼音串在词库中进行匹配时包括以下步骤:检测当前的拼音串是否为多个子词条的拼音,如果是,根据拼音规则将当前词条分离为多个子拼音串;根据当前子拼音串,按照从前到后的顺利,逐个进行匹配。优选地,在所述的针对拼音输入法的词条检索方法中,在根据拼音规则将当前词条分离为多个子拼音串后,还包括判断所述多个子拼音串是否符合拼音规则的步骤,如果有不符合拼音规则的子拼音串,包括以步骤:获得与符合拼音规则的子拼音串相对应的子词条;将与不符合拼音规则的子拼音串相邻的子词条作为参考子词条;根据所述参考子词条及不符合拼音规则的子拼音串,在词库中进行匹配得到与不符合拼音规则的子拼音串相对应的至少一个子词条。为解决上述技术问题,本专利技术还提供了一种针对拼音输入法的词条检索系统,其中,包括:用户界面,用于提供与用户交互的接口;检测模块,用于检测通过用户界面输入的当前拼音串前或后是否有参考词条;词条匹配模块,用于根据输入信息,在词库获得相应的词条或词条列表;控制模块,与所述检测模块连接,根据检测模块的检测结果,向所述词条匹配模块发送相应的输入信息;和词库,用于存储词条。优选地,在所述的针对拼音输入法的词条检索系统中,所述词条匹配模块的输入信息包括当前输入的拼音串,或当前输入的拼音串和前或后参考词条的组合信息。优选地,在所述的针对拼音输入法的词条检索系统中,所述词条匹配模块包括:输入信息解析单元,用于分析输入信息,得到两组匹配指令;两组匹配单元,分别根据相应的匹配指令得到对应的词条组;词条选择单元,在所述两组词条组中选出合集的词条,并将其作为与当前输入的拼音串对应的候选词条。优选地,在所述的针对拼音输入法的词条检索系统中,所述控制模块包括:拼音串分离单元,用于将当前输入的拼音串按拼音规则分离成多个子拼音串,将所述多个子拼音串送给所述的词条匹配模块作为输入信息。优选地,在所述的针对拼音输入法的词条检索系统中,所述控制模块还包括甄别单元,用于判断所述多个子拼音串是否符合拼音规则,并将所述甄别信息作为输入信息的一部分送给所述的词条匹配模块。优选地,在所述的针对拼音输入法的词条检索系统中,所述词条匹配模块包括:第一匹配单元,用于根据所述输入信息中的符合拼音规则的子拼音串获得相应的至少一个子词条;参考子词条确定单元,用于根据不符合拼音规则的子拼音串在拼音串的位置确定与其相应的参考子词条;第二匹配单元,用于根据参考子词条匹配及不符合拼音规则的子拼音串,在词库中得到与不符合拼音规则的子拼音串相对应的至少一个子词条。通过以上方法和系统,本专利技术可以根据用户的意图推荐词条,大大提高了输入法中的词条推荐准确率。为解决上述技术问题,本专利技术还提供了一种基于前述方法和系统的针对拼音输入法的错词检测方法,其中,包括以下步骤:步骤1,针对用户当前输入的拼音串,根据前述的词条检索方法和系统得到至少一个前置或后置词条;步骤2,根据所述至少一个前置或后置词条构建以不重复的拼音字母为节点、以词条的拼音顺序为节点相邻顺序的词图;步骤3,分别以当前拼音串的正向拼音顺序与所述词图逐个字母正向对比和以当前拼音串的逆向拼音顺序与所述词图逐个字母逆向本文档来自技高网
...

【技术保护点】
一种针对拼音输入法的词条检索方法,其中,包括以下步骤:检测当前输入的拼音串前或后是否有参考词条;如果有前或后参考词条,根据前或后参考词条及当前输入的拼音串,在词库中进行匹配,获得至少一个后或前置词条;如果当前输入的拼音串的前后没有参考词条,根据当前的拼音串在词库中进行匹配获得相应的词条或词条列表。

【技术特征摘要】
1.一种针对拼音输入法的词条检索方法,其中,包括以下步骤:
检测当前输入的拼音串前或后是否有参考词条;
如果有前或后参考词条,根据前或后参考词条及当前输入的拼音
串,在词库中进行匹配,获得至少一个后或前置词条;
如果当前输入的拼音串的前后没有参考词条,根据当前的拼音串在
词库中进行匹配获得相应的词条或词条列表。
2.如权利要求1所述的针对拼音输入法的词条检索方法,其中,如
果当前输入的拼音串同时有前参考词条和后参考词条;在词库中进行匹
配时,具体包括以下步骤:
根据前参考词条及当前输入的拼音串,在词库中匹配得到第一组词
条;
根据后参考词条及当前输入的拼音串,在词库中匹配得到第二组词
条;
将所述第一组词条和第二组词条的合集作为与当前输入的拼音串
对应的候选词条集。
3.如权利要求1所述的针对拼音输入法的词条检索方法,其中,如
果当前输入的拼音串的前后都没有参考词条,根据当前的拼音串在词库
中进行匹配时包括以下步骤:
检测当前的拼音串是否为多个子词条的拼音,如果是,根据拼音规
则将当前词条分离为多个子拼音串;
根据当前子拼音串,按照从前到后的顺利,逐个进行匹配。
4.如权利要求3所述的针对拼音输入法的词条检索方法,其中,在
根据拼音规则将当前词条分离为多个子拼音串后,还包括判断所述多个
子拼音串是否符合拼音规则的步骤,如果有不符合拼音规则的子拼音串,
包括以步骤:
获得与符合拼音规则的子拼音串相对应的子词条;
将与不符合拼音规则的子拼音串相邻的子词条作为参考子词条;
根据所述参考子词条及不符合拼音规则的子拼音串,在词库中进行
匹配得到与不符合拼音规则的子拼音串相对应的至少一个子词条。
5.一种针对拼音输入法的词条检索系统,其中,包括:
用户界面,用于提供与用户交互的接口;
检测模块,用于检测通过用户界面输入的当前拼音串前或后是否有
参考词条;
词条匹配模块,用于根据输入信息,在词库获得相应的词条或词条
列表;
控制模块,与所述检测模块连接,根据检测模块的检测结果,向所
述词条匹配模块发送相应的输入信息;和
词库,用于存储词条。
6.如权利要求5所述的针对拼音输入法的词条检索系统,其中,
所述词条匹配模块的输入信息包括当前输入的拼音串,或当前输入的拼
音串和前或后参考词条的组合信息。
7.如权利要求5所述的针对拼音输入法的词条检索系统,其中,
所述词条匹配模块包括:
输入信息解析单元,用于分析输入信息,得到两组匹配指令;
两组匹配单元,分别根据相应的匹配指令得到对应的词条组;
词条选择单元,在所述两组词条组中选出合集的词条,并将其作为
与当前输入的拼音串对应的候选词条。
8.如权利要求5所述的针对拼音输入法的词条检索系统,其中,
所述控制模块包括:
拼音串分离单元,用于将当前输入的拼音串按拼音规则分离成多个
子拼音串,将所述多个子拼音串送给所述的词条匹配模块作为输入信息。
9.如权利要求8所述的针对...

【专利技术属性】
技术研发人员:何兴洋
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1