一种纠错方法及装置制造方法及图纸

技术编号:18621262 阅读:16 留言:0更新日期:2018-08-08 00:23
本发明专利技术实施例提供了一种纠错方法及装置,涉及计算机技术领域,该方法包括:确定待进行纠错处理的目标词;在目标纠错词典中查找与该目标词匹配的纠错对,作为候选纠错对;其中,目标纠错词典为:预先构建的纠错词典,该目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;根据查找到的候选纠错对,获得上述目标词的纠错结果。与现有技术相比,应用本发明专利技术实施例提供的方案,对待进行纠错处理的目标词进行纠错处理时,能够较高概率的在目标纠错词典中找到目标词的纠错词,进而降低对目标词进行纠错时失败的概率。

A method and device for error correction

The present invention provides an error correction method and device, which involves the field of computer technology. The method includes: determining the target word for error correction processing, finding an error correction pair matching the target word in the target error correction dictionary, as a candidate error correction pair; in which the target correction dictionary is a pre constructed error correction dictionary. Each error correction pair stored in the target error correction dictionary is an error correction pair obtained by correcting the sample words through the error correction model. The error correction model is the model of training the first presupposed model by the error correction in the known error correction dictionary. The wrong result. Compared with the existing technology, using the scheme provided by the embodiment of the present invention, when correcting the target word for error correction processing, it can find the error correction word of the target word in the target error correction dictionary with higher probability, and then reduce the probability of failure to correct the target words when the target words are corrected.

【技术实现步骤摘要】
一种纠错方法及装置
本专利技术涉及计算机
,特别是涉及一种纠错方法及装置。
技术介绍
随着互联网技术的快速发展,用户能够从网络中获得的信息越来越多。当用户搜索想要的信息时,一般会在其所使用的客户端中输入搜索词,客户端获得与用户所输入搜索词相匹配的信息,并将所获得的信息展示给用户。然而用户在输入搜索词的时候可能会存在输入错误,为保证向用户提供用户想要的信息,在获得用户输入的搜索词后,一般会对上述搜索词进行纠错处理。现有技术中,对用户输入的搜索词进行纠错处理时,一般将用户输入的搜索词与已知纠错词典中存储的纠错对进行匹配,获得与用户输入的搜索词相匹配的纠错对,然后从所获得的纠错对中确定用户输入的搜索词的纠错结果。其中,一个纠错对中包括一个待纠错词和该待纠错词的纠错结果,也就是纠错词。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:由于已知的纠错词典中所包含的纠错对不够全面,导致对用户输入的搜索词进行纠错处理时,难以从已知的纠错词典中找到与上述搜索词匹配的纠错对,从而导致对搜索词进行纠错时失败概率较高。
技术实现思路
本专利技术实施例的目的在于提供一种纠错方法及装置,以降低对待进行纠错处理的词进行纠错时失败的概率。具体技术方案如下:第一方面,本专利技术实施例提供了一种纠错方法,所述方法包括:确定待进行纠错处理的目标词;在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;根据查找到的候选纠错对,获得所述目标词的纠错结果。一种实现方式中,所述根据查找到的候选纠错对,获得所述目标词的纠错结果,包括:获取所查找到候选纠错对针对预设特征的特征值;将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果,其中,所述分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,所述分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;根据所获得的分类结果,获得所述目标词的纠错结果。一种实现方式中,通过以下方式获得所述目标纠错词典中的一个纠错对:获取样本词;对所述样本词进行分词处理,得到所述样本词包含的分词;将得到的分词输入至所述纠错模型,获得各个分词的纠错词;根据所获得的纠错词,得到所述样本词的纠错词,并确定由所述样本词和样本词的纠错词形成的纠错对。一种实现方式中,通过以下方式训练得到所述纠错模型:获得已知纠错词典中的纠错对,作为训练样本;将所述训练样本中的待纠错词作为纠错源,将所述训练样本中的纠错词作为纠错目标,对所述第一预设模型进行训练得到所述纠错模型。一种实现方式中,通过以下方式训练得到所述分类模型:获得样本纠错对;提取所述样本纠错对针对所述预设特征的特征值,并获得所述样本纠错对的标注分类;将所提取的特征值和所获得的标注分类作为所述第二预设模型的输入参数,对所述第二预设模型进行训练,得到所述分类模型。一种实现方式中,所述获得样本纠错对,包括:从所述已知纠错词典中抽取纠错对,作为样本纠错对。一种实现方式中,在得到所述分类模型之后,还包括:提取所述目标纠错词典中各个纠错对针对预设特征的特征值;将所提取的特征值输入至所述分类模型,获得所述目标纠错词典中各个纠错对的分类结果;确定所述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;从所述目标纠错词典中删除所确定的目标纠错对。一种实现方式中,所述预设特征包括以下特征中的至少一种:纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。第二方面,本专利技术实施例提供了一种纠错装置,所述装置包括:目标词确定模块,用于确定待进行纠错处理的目标词;纠错对查找模块,用于在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;纠错结果获得模块,用于根据查找到的候选纠错对,获得所述目标词的纠错结果。一种实现方式中,所述纠错结果获得模块,包括:特征值获得子模块,用于获取所查找到候选纠错对针对预设特征的特征值;分类结果获得子模块,用于将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果,其中,所述分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,所述分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;纠错结果获得子模块,用于根据所获得的分类结果,获得所述目标词的纠错结果。一种实现方式中,所述装置还包括:纠错对获得模块,用于获得所述目标纠错词典中的一个纠错对;其中,所述纠错对获得模块,包括:样本词获得子模块,用于获取样本词;分词获得子模块,用于对所述样本词进行分词处理,得到所述样本词包含的分词;纠错词获得子模块,用于将得到的分词输入至所述纠错模型,获得各个分词的纠错词;纠错对确定子模块,用于根据所获得的纠错词,得到所述样本词的纠错词,并确定由所述样本词和样本词的纠错词形成的纠错对。一种实现方式中,所述装置还包括:纠错模型训练模块,用于训练得到所述纠错模型;其中,所述纠错模型训练模块,包括:训练样本获得子模块,用于获得已知纠错词典中的纠错对,作为训练样本;纠错模型训练子模块,用于将所述训练样本中的待纠错词作为纠错源,将所述训练样本中的纠错词作为纠错目标,对所述第一预设模型进行训练,得到所述纠错模型。一种实现方式中,所述装置还包括:分类模型训练模块,用于训练得到所述分类模型;样本纠错对获得子模块,用于获得样本纠错对;训练信息获得子模块,用于提取所述样本纠错对针对所述预设特征的特征值,并获得所述样本纠错对的标注分类;分类模型训练子模块,用于将所提取的特征值和所获得的标注分类作为所述第二预设模型的输入参数,对所述第二预设模型进行训练,得到所述分类模型。一种实现方式中,所述样本纠错对获得子模块,具体用于从所述已知纠错词典中抽取纠错对,作为样本纠错对。一种实现方式中,其特征在于,所述装置还包括:特征值提取模块,用于在得到所述分类模型之后提取所述目标纠错词典中各个纠错对针对预设特征的特征值;分类结果获得模块,用于将所提取的特征值输入至所述分类模型,获得所述目标纠错词典中各个纠错对的分类结果;目标纠错对确定模块,用于确定所述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;目标纠错对删除模块,用于从所述目标纠错词典中删除所确定的目标纠错对。一种实现方式中,所述预设特征包括以下特征中的至少一种:纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型本文档来自技高网...

【技术保护点】
1.一种纠错方法,其特征在于,所述方法包括:确定待进行纠错处理的目标词;在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;根据查找到的候选纠错对,获得所述目标词的纠错结果。

【技术特征摘要】
1.一种纠错方法,其特征在于,所述方法包括:确定待进行纠错处理的目标词;在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;根据查找到的候选纠错对,获得所述目标词的纠错结果。2.根据权利要求1所述的方法,其特征在于,所述根据查找到的候选纠错对,获得所述目标词的纠错结果,包括:获取所查找到候选纠错对针对预设特征的特征值;将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果,其中,所述分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,所述分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;根据所获得的分类结果,获得所述目标词的纠错结果。3.根据权利要求1或2所述的方法,其特征在于,通过以下方式获得所述目标纠错词典中的一个纠错对:获取样本词;对所述样本词进行分词处理,得到所述样本词包含的分词;将得到的分词输入至所述纠错模型,获得各个分词的纠错词;根据所获得的纠错词,得到所述样本词的纠错词,并确定由所述样本词和样本词的纠错词形成的纠错对。4.根据权利要求1或2所述的方法,其特征在于,通过以下方式训练得到所述纠错模型:获得已知纠错词典中的纠错对,作为训练样本;将所述训练样本中的待纠错词作为纠错源,将所述训练样本中的纠错词作为纠错目标,对所述第一预设模型进行训练得到所述纠错模型。5.根据权利要求2所述的方法,其特征在于,通过以下方式训练得到所述分类模型:获得样本纠错对;提取所述样本纠错对针对所述预设特征的特征值,并获得所述样本纠错对的标注分类;将所提取的特征值和所获得的标注分类作为所述第二预设模型的输入参数,对所述第二预设模型进行训练,得到所述分类模型。6.根据权利要求5所述的方法,其特征在于,所述获得样本纠错对,包括:从所述已知纠错词典中抽取纠错对,作为样本纠错对。7.根据权利要求5或6所述的方法,其特征在于,在得到所述分类模型之后,还包括:提取所述目标纠错词典中各个纠错对针对预设特征的特征值;将所提取的特征值输入至所述分类模型,获得所述目标纠错词典中各个纠错对的分类结果;确定所述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;从所述目标纠错词典中删除所确定的目标纠错对。8.根据权利2所述的方法,其特征在于,所述预设特征包括以下特征中的至少一种:纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。9.一种纠错装置,其特征在于,所述装置包括:目标词确定模块,用于确定待进行纠错处理的目标词;纠错对查找模块,用于在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;纠错结果获得模块,用于根据查找到...

【专利技术属性】
技术研发人员:孙超博
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1