一种输入纠错方法及装置制造方法及图纸

技术编号:14888070 阅读:48 留言:0更新日期:2017-03-28 18:19
本发明专利技术提出了一种输入纠错方法及装置,该方法包括:判断输入的词语字符串是否为全拼音;若是,则对所述词语字符串的全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第一纠错结果;否则,对所述词语字符串进行分词处理,在分词处理的结果中分词个数大于1时,将所述词语字符串转成全拼音,并对转成的所述全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第二纠错结果。本发明专利技术巧妙地将相似度计算方法应用于拼音字符的相似度计算和中文字符的相似度计算中,将本发明专利技术应用于中文搜索引擎和智能问答系统中,可以显著提高中文搜索引擎和智能问答系统中针对词语输入的信息查询和问答的准确率。

【技术实现步骤摘要】

本专利技术涉及自然语音处理和机器学习
,尤其涉及一种输入纠错方法及装置
技术介绍
目前用户常常会通过中文搜索引擎或智能问答系统进行信息查询,其中很大一部分查询是以词语的形式输入的。以百度为代表的中文搜索引擎和以小i机器人为代表的智能问答系统均能对用户输入的中文词语进行相应的响应和反馈。但是,当用户输入错误的词语时,主要有:同音别字、近音别字、形近别字、拼音、多字漏字等情况,以上搜索引擎或智能问答系统就可能会无法正确或有效处理此类词语,致使用户无法获取需要的信息。例如,原词为:火中取栗,对于存在同音别字、近音别字、拼音等错误的“火宗去li”或存在同音别字、多字漏字等错误的“火中去”,以上的搜索引擎或智能问答系统均无法正确处理。
技术实现思路
本专利技术要解决的技术问题是,提供一种输入纠错方法及装置,对输入的同音别字、近音别字、拼音、形近别字、多字漏字等情况进行有效的纠错处理。本专利技术采用的技术方案是,所述输入纠错方法,包括:判断输入的词语字符串是否为全拼音;若是,则对所述词语字符串的全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第一纠错结果;否则,对所述词语字符串进行分词处理,在分词处理的结果中分词个数大于1时,将所述词语字符串转成全拼音,并对转成的所述全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第二纠错结果。进一步的,根据拼音反查表将纠错后的全拼音反查为汉字;所述方法还包括:预先建立拼音反查表,包括:提供训练语料;对训练语料进行分词以得到词语列表;在词语列表的基础上利用拼音反查表生成工具生成拼音反查表。进一步的,在分词处理的结果中分词个数大于1时,所述将所述词语字符串转成全拼音,包括:在不改变所述词语字符串中各分词出现顺序的情况下,将所述词语字符串中的汉字分词转换成拼音,再与所述词语字符串中已有的拼音一起,组成所述词语字符串对应的全拼音。进一步的,所述方法还包括:预先建立词频表,包括:提供训练语料;对训练语料进行分词以得到词语列表;采用统计的方式根据词语列表得到词频表;对任一词语字符串的全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到纠错结果,包括:根据拼音反查表判断所述任一词语字符串的全拼音的拼写是否正确;若是,则根据所述任一词语字符串的全拼音获取同音的词语列表,基于获取的同音的词语列表得到纠错结果;若否,则根据所述任一词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度,确定出纠错结果。进一步的,所述基于获取的同音的词语列表得到纠错结果,包括:判断获取的同音的词语列表是否为空,若是,则得到的纠错结果为空,否则将获取的同音的词语列表中的词语作为纠错结果;所述根据所述词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度,确定出纠错结果,包括:依次计算所述词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度;对于计算出的相似度大于设定相似度阈值的情况,将拼音反查表中的拼音对应的词语列表中的词语作为纠错结果。进一步的,所述方法,还包括:若分词处理的结果中分词的个数为1,则将用户输入的词语字符串作为第二纠错结果。进一步的,所述方法还包括:根据第一纠错结果或者第二纠错结果进行相应的提示。进一步的,根据第一纠错结果进行相应的提示,包括:判断第一纠错结果是否为空,若是,则提示用户所输入的词语字符串所对应的汉字词语数目超过一个或者用户所输入的词语字符串有误,否则将纠错结果中的词语按照在词频表中的词频从大到小的排列输出设定个数的词语以提示给用户。进一步的,根据第二纠错结果进行相应的提示,包括:若第二纠错结果为空,则提示用户所输入的词语字符串所对应的汉字词语数目超过一个或者用户所输入的词语字符串中的拼音有误;若第二纠错结果中词语的个数为1,则将第二纠错结果中的词语输出以提示给用户;若第二纠错结果中词语的个数大于1,则根据第二纠错结果中各词语与所述输入的词语字符串中的汉字词语字符串之间的相似度确定将第二纠错结果中的各词语向用户进行提示的方式,并进行提示。进一步的,所述根据第二纠错结果中各词语与所述输入的词语字符串中的汉字词语字符串之间的相似度确定将第二纠错结果中的各词语向用户进行提示的方式,并进行提示,包括:分别计算第二纠错结果中各词语与所述输入的词语字符串中的汉字词语字符串之间的相似度;若计算出的第二纠错结果中各词语对应的所述相似度数值均一致,则将第二纠错结果中的各词语按照在词频表中的词频从大到小的排列输出设定个数的词语以提示给用户,否则将第二纠错结果中的各词语按照相似度从大到小输出设定个数的词语以提示给用户。进一步的,所述输入的词语字符串中的汉字词语字符串的获取过程包括:在分词处理的结果中分词个数大于1的情况下,依次记录所述输入的词语字符串的分词中的所有汉字分词并组成汉字词语字符串。本专利技术还提供一种输入纠错装置,包括:判断模块,用于判断输入的词语字符串是否为全拼音;若是,则将所述词语字符串的全拼音发送给纠错模块进行处理,得到第一纠错结果;否则,将所述词语字符串发送给分词模块进行分词处理;分词模块,用于对判断模块发来的词语字符串进行分词处理,在分词处理的结果中分词个数大于1时,将所述词语字符串发送给转换模块;转换模块,用于将分词模块发来的词语字符串转成全拼音并将转成的全拼音发送给纠错模块进行处理,得到第二纠错结果;纠错模块,用于对判断模块或者转换模块发来的全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到相应的纠错结果。进一步的,所述纠错模块,具体用于:根据拼音反查表将纠错后的全拼音反查为汉字;所述装置还包括:建立模块,用于:提供训练语料;对训练语料进行分词以得到词语列表;在词语列表的基础上利用拼音反查表生成工具生成拼音反查表。进一步的,所述转换模块,具体用于:在不改变所述词语字符串中各分词出现顺序的情况下,将所述词语字符串中的汉字分词转换成拼音,再与所述词语字符串中已有的拼音一起,组成所述词语字符串对应的全拼音。进一步的,所述建立模块,还用于:采用统计的方式根据词语列表得到词频表;所述纠错模块,包括:拼写检查单元,用于对任一词语字符串的全拼音进行拼音纠错处理时,根据拼音反查表判断所述任一词语字符串的全拼音的拼写是否正确;若是,则调用第一处理单元,否则调用第二处理单元;第一处理单元,用于根据所述任一词语字符串的全拼音获取同音的词语列表,基于获取的同音的词语列表得到纠错结果;第二处理单元,用于根据所述任一词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度,确定出纠错结果。进一步的,所述第一处理单元,具体用于:判断获取的同音的词语列表是否为空,若是,则得到的纠错结果为空,否则将获取的同音的词语列表中的词语作为纠错结果;所述第二处理单元,具体用于:依次计算所述词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度;对于计算出的相似度大于设定相似度阈值的情况,将拼音反查表中的拼音对应的词语列表中的词语作为纠错结果。进一步的,所述分词模块,还用于:若分词处理的结果中分词的个数为1,则将用户输入的词语字符串作为第二纠错结果。进一步的,所述装置还包括:提示模块,用于根据第一纠错结果或者第二纠错结果进行相应的提示。进一步的,所述提示模块,具体用于:判断第一纠错结果是否为空本文档来自技高网...
一种输入纠错方法及装置

【技术保护点】
一种输入纠错方法,其特征在于,包括:判断输入的词语字符串是否为全拼音;若是,则对所述词语字符串的全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第一纠错结果;否则,对所述词语字符串进行分词处理,在分词处理的结果中分词个数大于1时,将所述词语字符串转成全拼音,并对转成的所述全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第二纠错结果。

【技术特征摘要】
1.一种输入纠错方法,其特征在于,包括:判断输入的词语字符串是否为全拼音;若是,则对所述词语字符串的全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第一纠错结果;否则,对所述词语字符串进行分词处理,在分词处理的结果中分词个数大于1时,将所述词语字符串转成全拼音,并对转成的所述全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到第二纠错结果。2.根据权利要求1所述的输入纠错方法,其特征在于,根据拼音反查表将纠错后的全拼音反查为汉字;所述方法还包括:预先建立拼音反查表,包括:提供训练语料;对训练语料进行分词以得到词语列表;在词语列表的基础上利用拼音反查表生成工具生成拼音反查表。3.根据权利要求1所述的输入纠错方法,其特征在于,在分词处理的结果中分词个数大于1时,所述将所述词语字符串转成全拼音,包括:在不改变所述词语字符串中各分词出现顺序的情况下,将所述词语字符串中的汉字分词转换成拼音,再与所述词语字符串中已有的拼音一起,组成所述词语字符串对应的全拼音。4.根据权利要求2所述的输入纠错方法,其特征在于,所述方法还包括:预先建立词频表,包括:提供训练语料;对训练语料进行分词以得到词语列表;采用统计的方式根据词语列表得到词频表;对任一词语字符串的全拼音进行拼音纠错处理,并将纠错后的全拼音反查为汉字,得到纠错结果,包括:根据拼音反查表判断所述任一词语字符串的全拼音的拼写是否正确;若是,则根据所述任一词语字符串的全拼音获取同音的词语列表,基于获取的同音的词语列表得到纠错结果;若否,则根据所述任一词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度,确定出纠错结果。5.根据权利要求4所述的输入纠错方法,其特征在于,所述基于获取的同音的词语列表得到纠错结果,包括:判断获取的同音的词语列表是否为空,若是,则得到的纠错结果为空,否则将获取的同音的词语列表中的词语作为纠错结果;所述根据所述词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度,确定出纠错结果,包括:依次计算所述词语字符串的全拼音与拼音反查表中的每个拼音之间的相似度;对于计算出的相似度大于设定相似度阈值的情况,将拼音反查表中的拼音对应的词语列表中的词语作为纠错结果。6.根据权利要求4所述的输入纠错方法,其特征在于,所述方法,还包括:若分词处理的结果中分词的个数为1,则将用户输入的词语字符串作为第二纠错结果。7.根据权利要求6所述的输入纠错方法,其特征在于,所述方法还包括:根据第一纠错结果或者第二纠错结果进行相应的提示。8.根据权利要求7所述的输入纠错方法,其特征在于,根据第一纠错结果进行相应的提示,包括:判断第一纠错结果是否为空,若是,则提示用户所输入的词语字符串所对应的汉字词语数目超过一个或者用户所输入的词语字符串有误,否则将纠错结果中的词语按照在词频表中的词频从大到小的排列输出设定个数的词语以提示给用户。9.根据权利要求7所述的输入纠错方法,其特征在于,根据第二纠错结果进行相应的提示,包括:若第二纠错结果为空,则提示用户所输入的词语字符串所对应的汉字词语数目超过一个或者用户所输入的词语字符串中的拼音有误;若第二纠错结果中词语的个数为1,则将第二纠错结果中的词语输出以提示给用户;若第二纠错结果中词语的个数大于1,则根据第二纠错结果中各词语与所述输入的词语字符串中的汉字词语字符串之间的相似度确定将第二纠错结果中的各词语向用户进行提示的方式,并进行提示。10.根据权利要求9所述的输入纠错方法,其特征在于,所述根据第二纠错结果中各词语与所述输入的词语字符串中的汉字词语字符串之间的相似度确定将第二纠错结果中的各词语向用户进行提示的方式,并进行提示,包括:分别计算第二纠错结果中各词语与所述输入的词语字符串中的汉字词语字符串之间的相似度;若计算出的第二纠错结果中各词语对应的所述相似度数值均一致,则将第二纠错结果中的各词语按照在词频表中的词频从大到小的排列输出设定个数的词语以提示给用户,否则将第二纠错结果中的各词语按照相似度从大到小输出设定个数的词语以提示给用户。11.根据权利要求9或10所述的输入纠错方法,其特征在于,所述输入的词语字符串中的汉字词语字符串的获取过程包括:在分词处理的结果中分词个数大于1的情况下,依次记录所述输入的词语字符串的分词中的所有汉字分词并组成汉字词语字符串。12.一种输入纠错装置,其特征在于,包括:判断模...

【专利技术属性】
技术研发人员:陈培华朱频频陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1