System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及语言处理领域,尤其涉及一种文本纠错方法及装置、存储介质和服务器。
技术介绍
1、电子商务搜索文本纠错技术可以在商城搜索等场景下,对用户输入的文本搜索请求实现语句自动检查、自动纠错的重要技术,从而提高用户请求的正确性、减少人工校验的成本。
2、目前,在进行文本纠错时,可以采用基于规则的文本纠错方式和基于深度学习的文本纠错方式。
3、其中,采用基于规则的文本纠错方式进行文本纠错时,当文本中错误的位置较多时,错误候选的组合量级也会变大,造成文本纠错时延较大。采用基于深度学习的文本纠错方式进行文本纠错时,需要预先获取大量的神经网络训练的标注数据,且神经网络进行推断时耗时较长,同样会造成文本纠错的时延较大。
技术实现思路
1、有鉴于此,本申请公开了一种文本纠错方法及装置、存储介质和服务器。
2、根据本公开实施例的第一方面,提供一种文本纠错方法,所述方法由服务器执行,所述方法包括:
3、确定待纠错文本所包括的错误词组;
4、对每个所述错误词组进行候选召回,确定词组候选召回结果;
5、基于衡量词组之间关联性的点互信息pmi,在所述词组候选召回结果中,去除不符合场景要求的第一候选召回结果后,得到第二候选召回结果;
6、在基于所述第二候选召回结果所构建的第一候选文本中,确定文本通顺度超过所述待纠错文本的第二候选文本;
7、基于所述第二候选文本与所述待纠错文本的文本相似度,在所述第二候选文本中,确
8、可选地,所述确定待纠错文本所包括的错误词组,包括:
9、对所述待纠错文本进行分词处理,确定所述待纠错文本所包括的词组和/或单字;
10、将所述待纠错文本包括的所述单字确定为所述错误词组;和/或
11、对所述待纠错文本包括的所述词组进行错误检测,确定所述错误词组。
12、可选地,所述对每个所述错误词组进行候选召回,确定词组候选召回结果,包括:
13、如果所述错误词组由单字构成,从预先确定的词组词典中,基于与所述单字的拼音相似度、文字形状相似度和单字编辑距离中的至少一项,对所述单字进行候选召回,确定所述单字对应的所述词组候选召回结果;
14、如果所述错误词组由词组构成,从所述词组词典中,基于与所述词组的词组编辑距离和词组拼音编辑距离中的至少一项,对所述词组进行候选召回,确定所述词组对应的所述词组候选召回结果。
15、可选地,所述基于衡量词组之间关联性的点互信息pmi,在所述词组候选召回结果中,去除不符合场景要求的第一候选召回结果后,得到第二候选召回结果,包括:
16、基于所述词组候选召回结果,确定多个候选词组集合;其中,每个所述候选词组集合中包括所述待纠错文本中的正确词组,以及所述待纠错文本中每个所述错误词组对应的一个所述词组候选召回结果;
17、确定每个所述候选词组集合所包括的任意两个词组之间的pmi值;其中,所述pmi值与词组之间关联性成正比;
18、确定每个所述候选词组集合对应的所述pmi值的和值;
19、按照所述和值的大小,确定第一数目的所述候选词组集合;
20、将所述第一数目的所述候选词组集合所包括的所述词组候选召回结果确定为所述第一候选召回结果;
21、在所述词组候选召回结果中,去除所述第一候选召回结果后,得到所述第二候选召回结果。
22、可选地,所述确定每个所述候选词组集合所包括的任意两个词组之间的pmi值,包括:
23、确定每个所述候选词组集合所包括的第一词组和第二词组在预设的语料中共同出现的第一概率值;
24、分别确定所述第一词组和所述第二词组在所述语料中单独出现的第二概率值;
25、确定所述第二概率值的乘积;
26、确定所述第一概率值与所述乘积的商值;
27、基于所述商值的对数,得到每个所述候选词组集合所包括的所述第一词组和所述第二词组之间的所述pmi值。
28、可选地,所述在基于所述第二候选召回结果所构建的第一候选文本中,确定文本通顺度超过所述待纠错文本的第二候选文本,包括:
29、基于所述第二候选召回结果和所述待纠错文本所包括的正确词组,构建所述第一候选文本;
30、将所述第一候选文本和所述待纠错文本分别输入预先训练完成的语言神经网络,获得所述语言神经网络输出的与所述第一候选文本和所述待纠错文本分别对应的分数值;其中,所述分数值与文本通顺度成反比;
31、将所述分数值低于所述待纠错文本的所述第一候选文本确定为所述第二候选文本。
32、可选地,所述基于所述第二候选文本与所述待纠错文本的文本相似度,在所述第二候选文本中,确定对所述待纠错文本进行纠错后所得到的目标文本,包括:
33、将所述文本相似度为1且与所述待纠错文本的长度相等的所述第二候选文本确定为所述目标文本;或者
34、在所述文本相似度不等于1或不存在与所述待纠错文本长度相等的所述第二候选文本的情况下,将满足预设条件的所述第二候选文本确定为所述目标文本。
35、可选地,所述预设条件包括:
36、与所述待纠错文本的文本编辑距离最小;
37、与所述待纠错文本的拼音编辑距离最小;以及
38、与所述待纠错文本有最长公共字符串,或者所述待纠错文本是所述第二候选文本的前缀或后缀。
39、可选地,在确定待纠错文本所包括的错误词组之前,所述方法还包括:
40、从预先确定的实体词典中,基于文本编辑距离和文本拼音编辑距离中的至少一项,对所述待纠错文本所包括的实体词进行候选召回,确定实体词候选召回结果;
41、如果所述实体词候选召回结果的数目小于或等于第二数目,执行所述确定待纠错文本所包括的错误词组的步骤;
42、如果所述实体词候选召回结果的数目大于所述第二数目,将基于所述实体词候选召回结果所构建的文本确定为所述第二候选文本,执行所述基于所述第二候选文本与所述待纠错文本的文本相似度,在所述第二候选文本中,确定对所述待纠错文本进行纠错后所得到的目标文本的步骤。
43、可选地,在确定待纠错文本所包括的错误词组之前,所述方法还包括:
44、从预先确定的混淆词典中,对所述待纠错文本所包括的所述错误词组进行替换,得到替换文本;其中,所述混淆词典用于指示错误词组与正确词组之间的映射关系;
45、在所述替换文本是正确语句的情况下,将所述替换文本确定为对所述待纠错文本进行纠错后所得到的所述目标文本;
46、所述确定待纠错文本所包括的错误词组,包括:
47、在所述替换文本不是正确语句的情况下,确定所述替换文本所包括的所述错误词组。
48、根据本公开实施例的第二方面,本文档来自技高网...
【技术保护点】
1.一种文本纠错方法,其特征在于,所述方法由服务器执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待纠错文本所包括的错误词组,包括:
3.根据权利要求1所述的方法,其特征在于,所述对每个所述错误词组进行候选召回,确定词组候选召回结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于衡量词组之间关联性的点互信息PMI,在所述词组候选召回结果中,去除不符合场景要求的第一候选召回结果后,得到第二候选召回结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述确定每个所述候选词组集合所包括的任意两个词组之间的PMI值,包括:
6.根据权利要求1所述的方法,其特征在于,所述在基于所述第二候选召回结果所构建的第一候选文本中,确定文本通顺度超过所述待纠错文本的第二候选文本,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于所述第二候选文本与所述待纠错文本的文本相似度,在所述第二候选文本中,确定对所述待纠错文本进行纠错后所得到的目标文本,包括:
8.根据权利要求7所述
9.根据权利要求1-8任一项所述的方法,其特征在于,在确定待纠错文本所包括的错误词组之前,所述方法还包括:
10.根据权利要求1-8任一项所述的方法,其特征在于,在确定待纠错文本所包括的错误词组之前,所述方法还包括:
11.一种文本纠错装置,其特征在于,所述装置应用于服务器,所述装置包括:
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-10任一项所述的文本纠错方法的步骤。
13.一种服务器,其特征在于,包括:
...【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法由服务器执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待纠错文本所包括的错误词组,包括:
3.根据权利要求1所述的方法,其特征在于,所述对每个所述错误词组进行候选召回,确定词组候选召回结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于衡量词组之间关联性的点互信息pmi,在所述词组候选召回结果中,去除不符合场景要求的第一候选召回结果后,得到第二候选召回结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述确定每个所述候选词组集合所包括的任意两个词组之间的pmi值,包括:
6.根据权利要求1所述的方法,其特征在于,所述在基于所述第二候选召回结果所构建的第一候选文本中,确定文本通顺度超过所述待纠错文本的第二候选文本,包括:
【专利技术属性】
技术研发人员:祝大伟,刘阳,
申请(专利权)人:北京小米移动软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。