【技术实现步骤摘要】
一种文本纠错方法、装置、设备及介质
本公开的实施例涉及文本处理
,具体而言,涉及一种文本纠错方法、装置、电子设备以及计算机可读存储介质。
技术介绍
目前,随着社会的发展,文本形式的信息数量剧增,海量的文本中不可避免的会存在错误,例如,文本中不可避免的会存在错误的字符串。错误的文本无法传播正确的信息或进行思想、舆论导向等,因此需要对文本进行纠错处理。另外,用户在进行信息查询的时候,输入的查询文本中也可能包括错误的字符串,基于包含错误字符串的查询文本,可能无法为用户查询到用户想要的信息,导致查询效率和查询准确率降低。
技术实现思路
有鉴于此,本公开的实施例至少提供一种文本纠错方法、装置、电子设备及介质,有利于提高信息查询场景中的查询效率和查询准确率。第一方面,本公开的实施例提供了一种文本纠错方法,包括:从获取的初始文本中,确定至少一个待纠错字符串;确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。在一种可能的实施方式中,所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:针对每个目标候选文本,确定该目标候选 ...
【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n从获取的初始文本中,确定至少一个待纠错字符串;/n确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;/n基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;/n基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。/n
【技术特征摘要】 【专利技术属性】
1.一种文本纠错方法,其特征在于,包括:
从获取的初始文本中,确定至少一个待纠错字符串;
确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
3.根据权利要求2所述的文本纠错方法,其特征在于,在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,还包括:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;
所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
4.根据权利要求2或3所述的文本纠错方法,其特征在于,所述文本关联子特征包括以下至少一项:
候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。
5.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本,包括:
基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;
按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本,N为正整数。
6.根据权利要求1所述的文本纠错方法,其特征在于,所述确定每个待纠错字符串分别对应的至少一个候选替换字符串,包括:
针对每个待纠错字符串,基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串。
7.根据权利要求6所述的文本纠错方法,其特征在于,所述编辑关联特征包括对应的两个字符串之间的编辑距离;
所述基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串,包括:
技术研发人员:孙程琳,陈柄辰,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。