【技术实现步骤摘要】
文本的纠错方法、装置和系统
本专利技术涉及语言信息处理领域,具体而言,涉及一种文本的纠错方法、装置和系统。
技术介绍
随着搜索技术的发展,各种输入法层出不穷。然而,用户在输入文本时,并不一定会对自己的输入进行检查修改,输入的单词中往往会存在拼写错误,拼写错误的单词在人与人的对话过程中,可以由人结合上下文解读其意义,相当于隐含地对文本进行了“纠正”。而对于相似度计算、搜索倒排等计算机系统来说,这样不标准的输入大大增加了输入的稀疏性,对系统性能产生不利的影响。所以一个性能良好的拼写纠错方法、系统是非常有价值的。根据用户输入文本无法得到搜索结果的情况,现有技术提供了几种对用户输入的文本进行纠错的方法:方式1:将用户输入的文本分词与词典中的标准词进行匹配,若完全匹配,则不作处理,若未完全匹配,则查找与用户输入的文本分词相似度最高的标准词,并用该标准词进行搜索,若搜索成功则将该相似度最高的标准词反馈给用户确认,若搜索失败则不作处理。方式2:基于翻译的纠错模型,使用翻译模型对输入进行“翻译”,“翻译”为拼写正确的文本。上述方式虽然都能在一定程度上对查询不成功的文本进行纠错,但是两种方式均存在缺陷。方式1只能对字形相似的分词进行纠错,即只有用户输入的文本分词字形较为准确的情况下才能准确的进行纠错。方式2的训练翻译模型需要大量的标注数据,训练代价非常高昂。因此,现有技术中文本的纠错方法难以满足用户需求。针对现有技术中文本纠错准确度低和纠错代价高的技术问题,目前尚未提出有效的解决方案。专利技术内 ...
【技术保护点】
1.一种文本的纠错方法,包括:/n获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词;/n采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值;/n根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;/n基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错。/n
【技术特征摘要】
1.一种文本的纠错方法,包括:
获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词;
采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值;
根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;
基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错。
2.根据权利要求1所述的方法,其中,在获取目标文本对应的候选词之前,所述方法还包括:获取目标文本对应的词序列,所述词序列用于表示所述目标文本中的词语,获取目标文本对应的词序列的步骤包括:
对所述目标文本进行归一化处理;
对归一化处理得到的结果进行分词处理,得到所述目标文本对应的词序列。
3.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的词语召回词典,其中,所述词语召回词典包括预设词语的标准形式、所述预设词语的缩写和所述预设词语的错误形式之间的第一对应关系;
在所述词语召回词典中查找所述目标文本中包含的词语,得到第一查找结果;
确定与所述第一查找结果具有第一对应关系的词语为所述目标文本中包含的词语的候选词。
4.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的标准词表中,标准词语的标准形式和所述标准词语的错误形式之间的第二对应关系,其中,通过对预设的标准词表中的标准词语进行变换,得到所述标准词语对应的错误形式,所述变换包括如下一种或多种:对所述标准形式的任意部分进行删除、增加和替换;
在所述第二对应关系中查找所述目标文本中包含的词语,得到第二查找结果;
确定与所述第二查找结果具有所述第二对应关系的词语为所述目标文本中包含的词语的候选词。
5.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的标准词表中,标准词语的标准形式和所述标准词语对应的无声调形式之间的第三对应关系,其中,通过去除所述标准形式的声调标识,得到所述标准词语的无声调形式;
在所述第三对应关系中查找所述目标文本中包含的词语,得到第三查找结果;
确定与所述第三查找结果具有所述第三对应关系的词语为所述目标文本中包含的词语的候选词。
6.根据权利要求1所述的方法,其中,在所述评估方式为第一评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取所述词语与对应的候选词之间的编辑距离,其中,所述编辑距离用于表示由所述词语的字符串转换成所述词语对应的候选词的字符串之间的最少编辑次数;
根据所述词语与对应的候选词之间的编辑距离确定所述候选词的评估值。
7.根据权利要求1所述的方法,其中,在所述评估方式为第二评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取所述词语的词长与所述词语对应的候选词的词长之间的差值;
根据所述差值确定所述候选词的评估值。
8.根据权利要求1所述的方法,其中,在所述评估方式为第三评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取候选词在不同声调形式下出现的概率;
根据所述概率确定所述候选词的评估值。
9.根据权利要求1所述的方法,其中,在所述评估方式为第四评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评...
【专利技术属性】
技术研发人员:包祖贻,李辰,徐光伟,刘恒友,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。