System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠错方法、装置、电子设备及存储介质制造方法及图纸_技高网

文本纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40748319 阅读:3 留言:0更新日期:2024-03-25 20:05
本申请实施例公开了一种文本纠错方法、装置、电子设备及存储介质。该方法包括:对待查询文本中的待纠错字符进行至少一种纠错处理,得到多个候选文本;获取每个候选文本的文本特征;根据每个候选文本的文本特征,确定每个候选文本的置信度;根据每个候选文本的置信度,对所述多个候选文本进行过滤,得到目标候选文本,其中,所述目标候选文本为所述多个候选文本中置信度最高的候选文本;根据所述待查询文本,对所述目标候选文本进行过滤,得到所述待查询文本的替换文本,以使用所述替换文本进行搜索。本申请能保证文本纠错的高召回率和高准确率。

【技术实现步骤摘要】

本申请涉及人工智能,具体涉及一种文本纠错方法、装置、电子设备及存储介质


技术介绍

1、查询纠错是对用户在搜索引擎中对输入文本出现的错误进行检测和纠正的过程,并以此获得更准确的查询结果。目前的查询纠错系统一般有两个步骤,第一步错误检测,即检测错误及识别错误词语的位置;第二步,错误纠正,即对错误的部分进行纠正。在社区搜索场景下,纠错可以帮助用户更加准确地表达搜索需求,获得更好的搜索体验。纠错结果一般会直接应用于下游的搜索召回等环节,直接影响用户的搜索体验。

2、错误纠正的方法一般采用词表匹配、基于统计特征的召回排序模型、基于神经网络模型。然而,基于纠错词表的纠错方法虽然准确率较高,但只能对错误频率较高的文本进行纠错,所覆盖的纠错场景有限;而依赖统计特征的纠错方法在面对长尾搜索词,会因为缺少统计特征无法纠错。基于神经网络模型的纠错方法,往往适用于自然语言文本的纠错,在短搜索文本上的纠错效果一般,且存在性能问题。总的来看,目前对查询文本的纠错,在满足高召回率的时候,在很多纠错场景下,难以满足高准确率,反之,在要求高准确的情况下,在很多纠错场景下,难以满足高召回率。

3、因此,针对目前的查询纠错,如何在全纠错场景下,既能满足高召回率,又能满足高准确率,是目前亟待解决的技术问题。


技术实现思路

1、本申请实施例提供了一种文本纠错方法、装置、电子设备及存储介质,对待纠错字符进行多种纠错处理,得到丰富的候选文本,然后对候选文本进行多层级的过滤,从实现在保证高准召率的情况下,提高了文本纠错的精度。

2、第一方面,本申请实施例提供一种文本纠错方法,包括:

3、对待查询文本中的待纠错字符进行至少一种纠错处理,得到多个候选文本;

4、获取每个候选文本的文本特征;

5、根据每个候选文本的文本特征,确定每个候选文本的置信度;

6、根据每个候选文本的置信度,对所述多个候选文本进行过滤,得到目标候选文本,其中,所述目标候选文本为所述多个候选文本中置信度最高的候选文本;

7、根据所述待查询文本,对所述目标候选文本进行过滤,得到所述待查询文本的替换文本,以使用所述替换文本进行搜索。

8、第二方面,本申请实施例提供一种文本纠错装置,包括:获取单元和处理单元;

9、所述获取单元,用于获取待查询文本;

10、所述处理单元,用于对待查询文本中的待纠错字符进行至少一种纠错处理,得到多个候选文本;

11、获取每个候选文本的文本特征;

12、根据每个候选文本的文本特征,确定每个候选文本的置信度;

13、根据每个候选文本的置信度,对所述多个候选文本进行过滤,得到目标候选文本,其中,所述目标候选文本为所述多个候选文本中置信度最高的候选文本;

14、根据所述待查询文本,对所述目标候选文本进行过滤,得到所述待查询文本的替换文本,以使用所述替换文本进行搜索。

15、第三方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第一方面所述的方法。

16、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。

17、第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。

18、实施本申请实施例,具有如下有益效果:

19、可以看出,在本申请实施例中,首先基于通过多种纠错处理,得到多个候选文本,从而可以提高召回率。然后,再结合每个候选文本的文本特征对候选文本进行初次过滤,筛选出目标候选文本,即置信度最高的候选文本。此时,并不是直接使用目标候选文本替换待查询文本,而是再结合待查询文本对目标候选文本进行二次过滤,得到替换文本,从而提高对待查询文本的纠错精度,进而实现在全纠错场景下,既能满足高召回率,又能满足高准确率。

本文档来自技高网...

【技术保护点】

1.一种文本纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求2所述的方法,其特征在于,所述根据所述待查询文本,对所述目标候选文本进行过滤,得到所述待查询文本的替换文本,包括:

5.根据权利要求4所述的方法,其特征在于,

6.根据权利要求5所述的方法,其特征在于,所述基于每个切词粒度对应的多个第一子文本和多个第二子文本,对所述目标候选文本进行过滤,得到所述待查询文本的替换文本,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据与第i个切词粒度对应的多个第一子文本,确定与第i个切词粒度对应的目标第一笔记特征i,以及根据与所述第i个切词粒度对应的多个第二子文本,确定与第i个切词粒度对应的目标第二笔记特征i,包括:

8.根据权利要求4所述的方法,其特征在于,

9.根据权利要求7或8所述的方法,其特征在于,所述根据所述待查询文本的意图、所述目标待纠错字符的语法结构以及所述目标待纠错字符的类别中的一种或多种,对所述目标候选文本进行过滤,得到所述替换文本,包括:

10.根据权利要求1-9中任一项所述的方法,其特征在于,所述至少一种纠错处理,包括:

11.一种文本纠错装置,其特征在于,包括:获取单元和处理单元;

12.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-10中任一项所述的方法。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-10中任一项所述的方法。

...

【技术特征摘要】

1.一种文本纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求2所述的方法,其特征在于,所述根据所述待查询文本,对所述目标候选文本进行过滤,得到所述待查询文本的替换文本,包括:

5.根据权利要求4所述的方法,其特征在于,

6.根据权利要求5所述的方法,其特征在于,所述基于每个切词粒度对应的多个第一子文本和多个第二子文本,对所述目标候选文本进行过滤,得到所述待查询文本的替换文本,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据与第i个切词粒度对应的多个第一子文本,确定与第i个切词粒度对应的目标第一笔记特征i,以及根据与所述第i个切词粒度对应的多个第二子文本,确定与第i个切词粒度对应的目标第二笔记特征i,包括:

8.根据权利要求4...

【专利技术属性】
技术研发人员:张翱东
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1