一种文本检错方法及装置制造方法及图纸

技术编号:24457802 阅读:19 留言:0更新日期:2020-06-10 16:04
本申请实施例提供了一种文本检错方法及装置,其中,首先获取生成待检测文本的用户端信息;之后选取与用户端信息匹配的语料库,并利用选取的语料库从待检测文本中初步筛选得到目标疑似词汇,最后基于目标疑似词汇出现在待检测文本的当前位置的概率,从目标疑似词汇中进行筛选得到最终的目标错误字符。本申请实施例基于生成待检测文本的用户端信息筛选语料库,利用筛选得到的语料库对待检测文本进行文本检错,能够增强文本检错的针对性,不仅有助于提高文本检错的准确度,而且能够提高文本检错的效率。同时,本申请实施例基于目标疑似词汇出现在待检测文本的当前位置的概率,进一步从目标疑似词汇中筛选目标错误字符,有效提高了文本检错的准确度。

A method and device of text error detection

【技术实现步骤摘要】
一种文本检错方法及装置
本申请涉及文本处理
,尤其是涉及一种文本检错方法及装置。
技术介绍
随着科技的发展,在智能服务的场景中需要对用户或客服的对话文本进行语义理解和意图分类等操作,继而根据得到的语义或意图执行对应的操作。当前,通过人工手写、利用输入法输入或利用语音辨识得到的文本中不可避免的存在错别字符,这些错别字符对上述语义理解和意图分类带来很大的困难,严重影响了后续语义理解或意图分类的准确度,继而造成智能服务的服务质量受损。现有技术中存在一些对文本进行检错的方法,但是这些检错方法存在检错精确度低或适用性差的缺陷,例如有些文本检错方法只适用于某些文本,对其他文本的检错准确度很低。
技术实现思路
有鉴于此,本申请的目的在于提供一种文本检错方法和装置,以提高文本的检错精确度和适应性。第一方面,本申请实施例提供了一种文本检错方法,包括:获取生成待检测文本的用户端信息;选取与所述用户端信息匹配的语料库;所述语料库存储有多个正确的文本;基于存储有多个正确的文本的所述语料库,从所述待检测文本中确定目标疑似词汇;基于每个目标疑似词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似词汇中筛选目标错误字符。在一种可能的实施方式中,所述选取与所述用户端信息匹配的语料库,包括:获取与所述用户端信息对应的历史文本信息;从获取的历史文本信息中选取正确文本,得到所述语料库。在一种可能的实施方式中,所述获取与所述用户端信息对应的历史文本信息,包括:基于所述用户端信息,确定目标用户群;获取所述目标用户群对应的用户生成的历史文本信息。在一种可能的实施方式中,所述基于存储有多个正确的文本的所述语料库,从待检测文本中确定目标疑似词汇,包括:基于存储有多个正确的文本的所述语料库,从所述待检测文本中筛选疑似错误词汇和疑似错误字符;从所述待检测文本中获取每个所述疑似错误字符所属的词汇,并从所述疑似错误字符所属的词汇中筛选属于所述疑似错误词汇的词汇,得到目标疑似词汇。在一种可能的实施方式中,所述从所述目标疑似词汇中筛选目标错误字符,包括:基于每个目标疑似词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似词汇中筛选目标错误词汇;从所述目标错误词汇的所有字符中,筛选属于所述疑似错误字符的字符,得到所述目标错误字符。在一种可能的实施方式中,所述从所述目标疑似词汇中筛选目标错误词汇,包括:确定每个目标疑似词汇出现在所述待检测文本的当前位置的概率,得到每个目标疑似词汇的第一概率;筛选第一概率小于第一预定值的目标疑似词汇,得到所述目标错误词汇。在一种可能的实施方式中,确定所述第一概率包括:获取所述目标疑似词汇在所述待检测文本中的前一个词汇,得到第一词汇;获取所述目标疑似词汇在所述待检测文本中的后一个词汇,得到第二词汇;根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似词汇、所述第一词汇以及所述第二词汇共同出现的概率,得到所述第一概率。在一种可能的实施方式中,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;确定所述第一概率包括,根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似词汇出现在所述第一词汇的后面,并且所述第二词汇出现在所述目标疑似词汇的后面的概率。在一种可能的实施方式中,所述从待检测文本中筛选疑似错误词汇和疑似错误字符,包括:获取待检测文本;基于所述语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率,从所述待检测文本中筛选疑似错误词汇和疑似错误字符。在一种可能的实施方式中,所述从所述待检测文本中筛选疑似错误字符,包括:获取所述待检测文本的从第N个字符开始的M个字符,得到至少一个第一集合;其中,N大于或等于1,并且N小于或等于L-M-1,L表示所述待检测物文本的字符的个数;根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符共同出现的概率,得到第二概率;基于所述第二概率,从所述第一集合中筛选所述疑似错误字符。在一种可能的实施方式中,所述从所述第一集合中筛选所述疑似错误字符,包括:筛选第二概率小于第二预定值的第一集合,并从筛选得到的第一集合中获取所有的字符,得到所述疑似错误字符。在一种可能的实施方式中,所述语料库中每两个字符共同出现的概率具体为,其中一个字符出现在另外一个字符的后面的概率;确定所述第二概率包括,根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符按照第一预定顺序共同出现的概率,得到所述第二概率,其中,所述第一预定顺序用于表示所述第一集合中的M个字符在所述待检测文本中的顺序。在一种可能的实施方式中,从所述待检测文本中筛选疑似错误词汇,包括:获取所述待检测文本的从第P个词汇开始的Q个词汇,得到至少一个第二集合;其中,P大于或等于1,并且P小于或等于K-Q-1,K表示所述待检测物文本中词汇的个数;根据所述语料库中每两个词汇共同出现的概率,确定所述第二集合中的Q个词汇共同出现的概率,得到第三概率;基于所述第三概率,从所述第二集合中筛选所述疑似错误词汇。在一种可能的实施方式中,所述从所述第二集合中筛选所述疑似错误字符词汇,包括:筛选第三概率小于第三预定值的第二集合,并从筛选得到的第二集合中获取所有的词汇,得到所述疑似错误词汇。在一种可能的实施方式中,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;确定所述第三概率包括,根据所述语料库中每两个词汇共同出现的概率,确定所述第三集合中的Q个词汇按照第二预定顺序共同出现的概率,得到所述第三概率,其中,所述第二预定顺序为所述第二集合中的Q个词汇在所述待检测文本中的顺序。在一种可能的实施方式中,所述文本检错方法还包括:对所述语料库中的所有文本进行预处理;确定预处理后的语料库中每两个字符共同出现的概率;确定预处理后的语料库中每两个词汇共同出现的概率;基于预处理后的语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率,从所述待检测文本中筛选疑似错误词汇和疑似错误字符。在一种可能的实施方式中,所述确定预处理后的语料库中每两个字符共同出现的概率,包括:确定预处理后的语料库中每两个字符共同出现的频次,并根据得到的频次确定每两个字符共同出现的频率。在一种可能的实施方式中,所述每两个字符共同出现的频次具体为,其中的一个字符出现在另一个字符的后面的频次。在一种可能的实施方式中,所述文本检错方法还包括:将预处理后的语料库中每两个字符共同出现的频次与第四预定值相加,得到更新后的每两个字符共同出现的频次。在一种可能的实施本文档来自技高网...

【技术保护点】
1.一种文本检错方法,其特征在于,包括:/n获取生成待检测文本的用户端信息;/n选取与所述用户端信息匹配的语料库;所述语料库存储有多个正确的文本;/n基于存储有多个正确的文本的所述语料库,从所述待检测文本中确定目标疑似词汇;/n基于每个目标疑似词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似词汇中筛选目标错误字符。/n

【技术特征摘要】
1.一种文本检错方法,其特征在于,包括:
获取生成待检测文本的用户端信息;
选取与所述用户端信息匹配的语料库;所述语料库存储有多个正确的文本;
基于存储有多个正确的文本的所述语料库,从所述待检测文本中确定目标疑似词汇;
基于每个目标疑似词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似词汇中筛选目标错误字符。


2.根据权利要求1所述的方法,其特征在于,所述选取与所述用户端信息匹配的语料库,包括:
获取与所述用户端信息对应的历史文本信息;
从获取的历史文本信息中选取正确文本,得到所述语料库。


3.根据权利要求2所述的方法,其特征在于,所述获取与所述用户端信息对应的历史文本信息,包括:
基于所述用户端信息,确定目标用户群;
获取所述目标用户群对应的用户生成的历史文本信息。


4.根据权利要求1所述的方法,其特征在于,所述基于存储有多个正确的文本的所述语料库,从待检测文本中确定目标疑似词汇,包括:
基于存储有多个正确的文本的所述语料库,从所述待检测文本中筛选疑似错误词汇和疑似错误字符;
从所述待检测文本中获取每个所述疑似错误字符所属的词汇,并从所述疑似错误字符所属的词汇中筛选属于所述疑似错误词汇的词汇,得到目标疑似词汇。


5.根据权利要求4所述的方法,其特征在于,所述从所述目标疑似词汇中筛选目标错误字符,包括:
基于每个目标疑似词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似词汇中筛选目标错误词汇;
从所述目标错误词汇的所有字符中,筛选属于所述疑似错误字符的字符,得到所述目标错误字符。


6.根据权利要求5所述的方法,其特征在于,所述从所述目标疑似词汇中筛选目标错误词汇,包括:
确定每个目标疑似词汇出现在所述待检测文本的当前位置的概率,得到每个目标疑似词汇的第一概率;
筛选第一概率小于第一预定值的目标疑似词汇,得到所述目标错误词汇。


7.根据权利要求6所述的方法,其特征在于,确定所述第一概率包括:
获取所述目标疑似词汇在所述待检测文本中的前一个词汇,得到第一词汇;
获取所述目标疑似词汇在所述待检测文本中的后一个词汇,得到第二词汇;
根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似词汇、所述第一词汇以及所述第二词汇共同出现的概率,得到所述第一概率。


8.根据权利要求7所述的方法,其特征在于,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;
确定所述第一概率包括,
根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似词汇出现在所述第一词汇的后面,并且所述第二词汇出现在所述目标疑似词汇的后面的概率。


9.根据权利要求4至8任一项所述的方法,其特征在于,所述从待检测文本中筛选疑似错误词汇和疑似错误字符,包括:
获取待检测文本;
基于所述语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率,从所述待检测文本中筛选疑似错误词汇和疑似错误字符。


10.根据权利要求9所述的方法,其特征在于,所述从所述待检测文本中筛选疑似错误字符,包括:
获取所述待检测文本的从第N个字符开始的M个字符,得到至少一个第一集合;其中,N大于或等于1,并且N小于或等于L-M-1,L表示所述待检测物文本的字符的个数;
根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符共同出现的概率,得到第二概率;
基于所述第二概率,从所述第一集合中筛选所述疑似错误字符。


11.根据权利要求10所述的方法,其特征在于,所述从所述第一集合中筛选所述疑似错误字符,包括:
筛选第二概率小于第二预定值的第一集合,并从筛选得到的第一集合中获取所有的字符,得到所述疑似错误字符。


12.根据权利要求10所述的方法,其特征在于,所述语料库中每两个字符共同出现的概率具体为,其中一个字符出现在另外一个字符的后面的概率;
确定所述第二概率包括,
根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符按照第一预定顺序共同出现的概率,得到所述第二概率,其中,所述第一预定顺序用于表示所述第一集合中的M个字符在所述待检测文本中的顺序。


13.根据权利要求9所述的方法,其特征在于,从所述待检测文本中筛选疑似错误词汇,包括:
获取所述待检测文本的从第P个词汇开始的Q个词汇,得到至少一个第二集合;其中,P大于或等于1,并且P小于或等于K-Q-1,K表示所述待检测物文本中词汇的个数;
根据所述语料库中每两个词汇共同出现的概率,确定所述第二集合中的Q个词汇共同出现的概率,得到第三概率;
基于所述第三概率,从所述第二集合中筛选所述疑似错误词汇。


14.根据权利要求13所述的方法,其特征在于,所述从所述第二集合中筛选所述疑似错误字符词汇,包括:
筛选第三概率小于第三预定值的第二集合,并从筛选得到的第二集合中获取所有的词汇,得到所述疑似错误词汇。


15.根据权利要求13所述的方法,其特征在于,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;
确定所述第三概率包括,
根据所述语料库中每两个词汇共同出现的概率,确定所述第三集合中的Q个词汇按照第二预定顺序共同出现的概率,得到所述第三概率,其中,所述第二预定顺序为所述第二集合中的Q个词汇在所述待检测文本中的顺序。


16.根据权利要求9所述的方法,其特征在于,所述方法还包括:
对所述语料库中的所有文本进行预处理;
确定预处理后的语料库中每两个字符共同出现的概率;
确定预处理后的语料库中每两个词汇共同出现的概率;
基于预处理后的语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率,从所述待检测文本中筛选疑似错误词汇和疑似错误字符。


17.根据权利要求16所述的方法,其特征在于,所述确定预处理后的语料库中每两个字符共同出现的概率,包括:
确定预处理后的语料库中每两个字符共同出现的频次,并根据得到的频次确定每两个字符共同出现的频率。


18.根据权利要求17所述的方法,其特征在于,所述每两个字符共同出现的频次具体为,其中的一个字符出现在另一个字符的后面的频次。


19.根据权利要求17所述的方法,其特征在于,所述方法还包括:
将预处理后的语料库中每两个字符共同出现的频次与第四预定值相加,得到更新后的每两个字符共同出现的频次。


20.根据权利要求16所述的方法,其特征在于,所述确定预处理后的语料库中每两个词汇共同出现的概率,包括:
确定预处理后的语料库中每两个词汇共同出现的频次,并根据得到的频次确定每两个词汇共同出现的频率。


21.根据权利要求20所述的方法,其特征在于,所述每两个词汇共同出现的频次具体为,其中的一个词汇出现在另一个词汇的后面的频次。


22.根据权利要求20所述的方法,其特征在于,所述方法还包括:
将预处理后的语料库中每两个词汇共同出现的频次与第五预定值相加,得到更新后的每两个词汇共同出现的频次。


23.根据权利要求16所述的方法,其特征在于,所述语料库包括至少一个文本;
所述对所述语料库中的所有文本进行预处理,包括:
在每个文本的第一个字符之前添加第一预定字符;
在每个文本的最后一个字符之后添加第二预定字符;
将每个文本中除汉字符之外的所有字符均替换为第三预定字符;
将连续的多个第三预定字符替换为一个所述第三预定字符。


24.根据权利要求23所述的方法,其特征在于,所述方法还包括:
对预处理后的文本进行分词处理,得到所述语料库的若干个词汇;
基于所述语料库的词汇,确定预处理后的语料库中每两个词汇共同出现的概率。


25.根据权利要求23或24所述的方法,其特征在于,所述方法还包括对所述待检测文本进行预处理的步骤:
在所述待检测文本的第一个字符之前添加所述第一预定字符;
在所述待检测文本的最后一个字符之后添加所述第二预定字符;
将待检测文本中除汉字符之外的所有字符均替换为第三预定字符;
将连续的多个第三预定字符替换为一个所述第三预定字符。


26.根据权利要求25所述的方法,其特征在于,所述方法还包括:
对所述待检测文本进行分词处理,得到所述待检测文本的若干个词汇;
基于所述待检测文本的词汇以及所述语料库,筛选所述疑似错误词汇。


27.一种文本检错装置,其特征在于,包括:
用户信息获取模块,用于获取生成待检测文本的用户端信息;
语料库匹配模块,用于选取与所述用户端信息匹配的语料库;所述语料库存储有多个正确的文本;
疑似错误筛选模块,用于基于存储有多个正确的文本的所述语料库,从所述待检测文本中确定目标疑似词汇;
目标错误字符筛选模块,用于基于每个目标...

【专利技术属性】
技术研发人员:张占秋李帅王伟玮王杰
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1