一种文本纠错方法、装置、设备及介质制造方法及图纸

技术编号:24498712 阅读:77 留言:0更新日期:2020-06-13 04:07
本公开的实施例公开了一种文本纠错方法、装置、设备和介质。其中,先从获取的初始文本中确定至少一个待纠错字符串;确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;之后基于候选文本的第一语义特征,从候选文本中筛选目标候选文本;最后基于每个目标候选文本与初始文本之间的文本关联特征,从目标候选文本中筛选替代初始文本的目标文本。该实施例在初步粗筛选的基础上,基于文本之间的文本关联特征进行了精筛选,因此得到的目标文本能够较为准确的表达初始文本的真实含义,起到纠正错误文本的作用,并且有利于提高信息查询效率和查询准确率。

A text correction method, device, equipment and medium

【技术实现步骤摘要】
一种文本纠错方法、装置、设备及介质
本公开的实施例涉及文本处理
,具体而言,涉及一种文本纠错方法、装置、电子设备以及计算机可读存储介质。
技术介绍
目前,随着社会的发展,文本形式的信息数量剧增,海量的文本中不可避免的会存在错误,例如,文本中不可避免的会存在错误的字符串。错误的文本无法传播正确的信息或进行思想、舆论导向等,因此需要对文本进行纠错处理。另外,用户在进行信息查询的时候,输入的查询文本中也可能包括错误的字符串,基于包含错误字符串的查询文本,可能无法为用户查询到用户想要的信息,导致查询效率和查询准确率降低。
技术实现思路
有鉴于此,本公开的实施例至少提供一种文本纠错方法、装置、电子设备及介质,有利于提高信息查询场景中的查询效率和查询准确率。第一方面,本公开的实施例提供了一种文本纠错方法,包括:从获取的初始文本中,确定至少一个待纠错字符串;确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。在一种可能的实施方式中,所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。在一种可能的实施方式中,在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,所述文本纠错方法还包括:针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。在一种可能的实施方式中,所述文本关联子特征包括以下至少一项:候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。在一种可能的实施方式中,所述基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本,包括:基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本,N为正整数。在一种可能的实施方式中,所述确定每个待纠错字符串分别对应的至少一个候选替换字符串,包括:针对每个待纠错字符串,基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串。在一种可能的实施方式中,所述编辑关联特征包括对应的两个字符串之间的编辑距离;所述基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串,包括:从所述候选词库中,筛选与该待纠错字符串的编辑距离小于预设阈值的字符串,作为该待纠错字符串对应的候选替换字符串。第二方面,本公开的实施例提供了一种文本纠错装置,包括:字符串定位模块,用于从获取的初始文本中,确定至少一个待纠错字符串;候选文本生成模块,用于确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;初始筛选模块,用于基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;目标筛选模块,用于基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。在一种可能的实施方式中,所述目标筛选模块具体用于:针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。在一种可能的实施方式中,所述目标筛选模块在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,还用于:针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;所述目标筛选模块在基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本时,具体用于:基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。在一种可能的实施方式中,所述文本关联子特征包括以下至少一项:候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。在一种可能的实施方式中,所述初始筛选模块具体用于:基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本。第三方面,本公开的实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的文本纠错方法的步骤。第四方面,本公开的实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的文本纠错方法的步骤。本公开的实施例提供了一种文本纠错方法及装置、电子设备本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n从获取的初始文本中,确定至少一个待纠错字符串;/n确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;/n基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;/n基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
从获取的初始文本中,确定至少一个待纠错字符串;
确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。


2.根据权利要求1所述的文本纠错方法,其特征在于,所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。


3.根据权利要求2所述的文本纠错方法,其特征在于,在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,还包括:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;
所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。


4.根据权利要求2或3所述的文本纠错方法,其特征在于,所述文本关联子特征包括以下至少一项:
候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。


5.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本,包括:
基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;
按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本,N为正整数。


6.根据权利要求1所述的文本纠错方法,其特征在于,所述确定每个待纠错字符串分别对应的至少一个候选替换字符串,包括:
针对每个待纠错字符串,基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串。


7.根据权利要求6所述的文本纠错方法,其特征在于,所述编辑关联特征包括对应的两个字符串之间的编辑距离;
所述基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串,包括:

【专利技术属性】
技术研发人员:孙程琳陈柄辰
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1