一种文本检错方法及装置制造方法及图纸

技术编号:24685312 阅读:74 留言:0更新日期:2020-06-27 08:28
本申请实施例提供了一种文本检错方法及装置,其中,首先基于待检测文本所属领域,获取与该领域匹配的存储有正确文本的语料库,之后利用获取的语料库初步筛选待检测文本中的疑似错误字符和疑似错误词汇,之后再基于疑似错误词汇和疑似错误字符筛选出准确度更高的目标疑似错误词汇,最后,利用基于每个目标疑似错误词汇出现在待检测文本的当前位置的概率,从目标疑似错误词汇中进行筛选,得到最终的目标错误字符。本申请实施例利用与待检测文本所属领域匹配的语料库进行文本检错,能够有效提高文本检错的精度。并且,本申请实施例对初步筛选得到疑似错误字符和疑似错误词汇,进一步进行了取交集和概率筛选的处理,能够有效提高文本检错的准确度。

A method and device of text error detection

【技术实现步骤摘要】
一种文本检错方法及装置
本申请涉及文本处理
,尤其是涉及一种文本检错方法及装置。
技术介绍
随着科技的发展,在智能服务的场景中需要对用户或客服的对话文本进行语义理解和意图分类等操作,继而根据得到的语义或意图执行对应的操作。当前,通过人工手写、利用输入法输入或利用语音辨识得到的文本中不可避免的存在错别字符,这些错别字符对上述语义理解和意图分类带来很大的困难,严重影响了后续语义理解或意图分类的准确度,继而造成智能服务的服务质量受损。现有技术中存在一些对文本进行检错的方法,但是这些检错方法存在检错精确度低或适用性差的缺陷,例如有些文本检错方法只适用于某些文本,对其他文本的检错精度很低。
技术实现思路
有鉴于此,本申请的目的在于提供一种文本检错方法和装置,以提高文本的检错精确度和适应性。第一方面,本申请实施例提供了一种文本检错方法,包括:基于待检测文本所属领域,获取与该领域匹配的存储有正确文本的语料库;基于所述存储有正确文本的语料库,从待检测文本中筛选疑似错误语料;所述疑似错误语料包括疑似错误词汇和疑似错误字符;基于所述疑似错误词汇和疑似错误字符,确定目标疑似错误词汇;基于每个目标疑似错误词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似错误词汇中筛选目标错误字符。在一种可能的实施方式中,所述基于所述疑似错误词汇和疑似错误字符,确定目标疑似错误词汇,包括:从所述待检测文本中获取每个所述疑似错误字符所属的词汇,并从所述疑似错误字符所属的词汇中筛选属于所述疑似错误词汇的词汇,得到目标疑似错误词汇。在一种可能的实施方式中,所述基于待检测文本所属领域,获取与该领域匹配的存储有正确文本的语料库,包括:获取所述待检测文本的生成时间以及多个待选语料库的最新更新时间;确定所述待检测文本的生成时间与每个所述待选语料库的最新更新时间的时间差;基于所述时间差以及所述待检测文本所属领域,从所述待选语料库中选取所述存储有正确文本的语料库。在一种可能的实施方式中,所述基于所述时间差以及所述待检测文本所属领域,从所述待选语料库中选取所述存储有正确文本的语料库,包括:在与所述待检测文本所属领域匹配的待选语料库中,选取小于预定时间长度的时间差对应的待选语料库;将选取的待选语料库进行合并,得到所述存储有正确文本的语料库。在一种可能的实施方式中,所述基于所述时间差以及所述待检测文本所属领域,从所述待选语料库中选取所述存储有正确文本的语料库,包括:在与所述待检测文本所属领域匹配的待选语料库中,选取最小的时间差对应的待选语料库,得到所述存储有正确文本的语料库。在一种可能的实施方式中,所述从所述目标疑似错误词汇中筛选目标错误字符,包括:基于每个目标疑似错误词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似错误词汇中筛选目标错误词汇;从所述目标错误词汇的所有字符中,筛选属于所述疑似错误字符的字符,得到所述目标错误字符。在一种可能的实施方式中,所述从所述目标疑似错误词汇中筛选目标错误词汇,包括:确定每个目标疑似错误词汇出现在所述待检测文本的当前位置的概率,得到每个目标疑似错误词汇的第一概率;筛选第一概率小于第一预定值的目标疑似错误词汇,得到所述目标错误词汇。在一种可能的实施方式中,确定所述第一概率包括:获取所述目标疑似错误词汇在所述待检测文本中的前一个词汇,得到第一词汇;获取所述目标疑似错误词汇在所述待检测文本中的后一个词汇,得到第二词汇;根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似错误词汇、所述第一词汇以及所述第二词汇共同出现的概率,得到所述第一概率。在一种可能的实施方式中,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;确定所述第一概率包括,根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似错误词汇出现在所述第一词汇的后面,并且所述第二词汇出现在所述目标疑似错误词汇的后面的概率。在一种可能的实施方式中,所述从待检测文本中筛选疑似错误语料,包括:获取所述待检测文本;基于所述语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率,从所述待检测文本中筛选疑似错误词汇和疑似错误字符。在一种可能的实施方式中,所述从所述待检测文本中筛选疑似错误字符,包括:获取所述待检测文本的从第N个字符开始的M个字符,得到至少一个第一集合;其中,N大于或等于1,并且N小于或等于L-M-1,L表示所述待检测物文本的字符的个数;根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符共同出现的概率,得到第二概率;基于所述第二概率,从所述第一集合中筛选所述疑似错误字符。在一种可能的实施方式中,所述从所述第一集合中筛选所述疑似错误字符,包括:筛选第二概率小于第二预定值的第一集合,并从筛选得到的第一集合中获取所有的字符,得到所述疑似错误字符。在一种可能的实施方式中,所述语料库中每两个字符共同出现的概率具体为,其中一个字符出现在另外一个字符的后面的概率;确定所述第二概率包括,根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符按照第一预定顺序共同出现的概率,得到所述第二概率,其中,所述第一预定顺序用于表示所述第一集合中的M个字符在所述待检测文本中的顺序。在一种可能的实施方式中,从所述待检测文本中筛选疑似错误词汇,包括:获取所述待检测文本的从第P个词汇开始的Q个词汇,得到至少一个第二集合;其中,P大于或等于1,并且P小于或等于K-Q-1,K表示所述待检测物文本中词汇的个数;根据所述语料库中每两个词汇共同出现的概率,确定所述第二集合中的Q个词汇共同出现的概率,得到第三概率;基于所述第三概率,从所述第二集合中筛选所述疑似错误词汇。在一种可能的实施方式中,所述从所述第二集合中筛选所述疑似错误字符词汇,包括:筛选第三概率小于第三预定值的第二集合,并从筛选得到的第二集合中获取所有的词汇,得到所述疑似错误词汇。在一种可能的实施方式中,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;确定所述第三概率包括,根据所述语料库中每两个词汇共同出现的概率,确定所述第三集合中的Q个词汇按照第二预定顺序共同出现的概率,得到所述第三概率,其中,所述第二预定顺序为所述第二集合中的Q个词汇在所述待检测文本中的顺序。在一种可能的实施方式中,所述文本检错方法还包括:对所述语料库中的所有文本进行预处理;确定预处理后的语料库中每两个字符共同出现的概率;确定预处理后的语料库中每两个词汇共同出现的概率;基于预处理后的语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率本文档来自技高网...

【技术保护点】
1.一种文本检错方法,其特征在于,包括:/n基于待检测文本所属领域,获取与该领域匹配的存储有正确文本的语料库;/n基于所述存储有正确文本的语料库,从待检测文本中筛选疑似错误语料;所述疑似错误语料包括疑似错误词汇和疑似错误字符;/n基于所述疑似错误词汇和疑似错误字符,确定目标疑似错误词汇;/n基于每个目标疑似错误词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似错误词汇中筛选目标错误字符。/n

【技术特征摘要】
1.一种文本检错方法,其特征在于,包括:
基于待检测文本所属领域,获取与该领域匹配的存储有正确文本的语料库;
基于所述存储有正确文本的语料库,从待检测文本中筛选疑似错误语料;所述疑似错误语料包括疑似错误词汇和疑似错误字符;
基于所述疑似错误词汇和疑似错误字符,确定目标疑似错误词汇;
基于每个目标疑似错误词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似错误词汇中筛选目标错误字符。


2.根据权利要求1所述的方法,其特征在于,所述基于所述疑似错误词汇和疑似错误字符,确定目标疑似错误词汇,包括:
从所述待检测文本中获取每个所述疑似错误字符所属的词汇,并从所述疑似错误字符所属的词汇中筛选属于所述疑似错误词汇的词汇,得到目标疑似错误词汇。


3.根据权利要求1所述的方法,其特征在于,所述基于待检测文本所属领域,获取与该领域匹配的存储有正确文本的语料库,包括:
获取所述待检测文本的生成时间以及多个待选语料库的最新更新时间;
确定所述待检测文本的生成时间与每个所述待选语料库的最新更新时间的时间差;
基于所述时间差以及所述待检测文本所属领域,从所述待选语料库中选取所述存储有正确文本的语料库。


4.根据权利要求3所述的方法,其特征在于,所述基于所述时间差以及所述待检测文本所属领域,从所述待选语料库中选取所述存储有正确文本的语料库,包括:
在与所述待检测文本所属领域匹配的待选语料库中,选取小于预定时间长度的时间差对应的待选语料库;
将选取的待选语料库进行合并,得到所述存储有正确文本的语料库。


5.根据权利要求3所述的方法,其特征在于,所述基于所述时间差以及所述待检测文本所属领域,从所述待选语料库中选取所述存储有正确文本的语料库,包括:
在与所述待检测文本所属领域匹配的待选语料库中,选取最小的时间差对应的待选语料库,得到所述存储有正确文本的语料库。


6.根据权利要求1所述的方法,其特征在于,所述从所述目标疑似错误词汇中筛选目标错误字符,包括:
基于每个目标疑似错误词汇出现在所述待检测文本的当前位置的概率,从所述目标疑似错误词汇中筛选目标错误词汇;
从所述目标错误词汇的所有字符中,筛选属于所述疑似错误字符的字符,得到所述目标错误字符。


7.根据权利要求6所述的方法,其特征在于,所述从所述目标疑似错误词汇中筛选目标错误词汇,包括:
确定每个目标疑似错误词汇出现在所述待检测文本的当前位置的概率,得到每个目标疑似错误词汇的第一概率;
筛选第一概率小于第一预定值的目标疑似错误词汇,得到所述目标错误词汇。


8.根据权利要求7所述的方法,其特征在于,确定所述第一概率包括:
获取所述目标疑似错误词汇在所述待检测文本中的前一个词汇,得到第一词汇;
获取所述目标疑似错误词汇在所述待检测文本中的后一个词汇,得到第二词汇;
根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似错误词汇、所述第一词汇以及所述第二词汇共同出现的概率,得到所述第一概率。


9.根据权利要求8所述的方法,其特征在于,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;
确定所述第一概率包括,
根据所述语料库中每两个词汇共同出现的概率,确定所述目标疑似错误词汇出现在所述第一词汇的后面,并且所述第二词汇出现在所述目标疑似错误词汇的后面的概率。


10.根据权利要求1至9任一项所述的方法,其特征在于,所述从待检测文本中筛选疑似错误语料,包括:
获取所述待检测文本;基于所述语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率,从所述待检测文本中筛选疑似错误词汇和疑似错误字符。


11.根据权利要求10所述的方法,其特征在于,所述从所述待检测文本中筛选疑似错误字符,包括:
获取所述待检测文本的从第N个字符开始的M个字符,得到至少一个第一集合;其中,N大于或等于1,并且N小于或等于L-M-1,L表示所述待检测物文本的字符的个数;
根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符共同出现的概率,得到第二概率;
基于所述第二概率,从所述第一集合中筛选所述疑似错误字符。


12.根据权利要求11所述的方法,其特征在于,所述从所述第一集合中筛选所述疑似错误字符,包括:
筛选第二概率小于第二预定值的第一集合,并从筛选得到的第一集合中获取所有的字符,得到所述疑似错误字符。


13.根据权利要求11所述的方法,其特征在于,所述语料库中每两个字符共同出现的概率具体为,其中一个字符出现在另外一个字符的后面的概率;
确定所述第二概率包括,
根据所述语料库中每两个字符共同出现的概率,确定所述第一集合中的M个字符按照第一预定顺序共同出现的概率,得到所述第二概率,其中,所述第一预定顺序用于表示所述第一集合中的M个字符在所述待检测文本中的顺序。


14.根据权利要求10所述的方法,其特征在于,从所述待检测文本中筛选疑似错误词汇,包括:
获取所述待检测文本的从第P个词汇开始的Q个词汇,得到至少一个第二集合;其中,P大于或等于1,并且P小于或等于K-Q-1,K表示所述待检测物文本中词汇的个数;
根据所述语料库中每两个词汇共同出现的概率,确定所述第二集合中的Q个词汇共同出现的概率,得到第三概率;
基于所述第三概率,从所述第二集合中筛选所述疑似错误词汇。


15.根据权利要求14所述的方法,其特征在于,所述从所述第二集合中筛选所述疑似错误字符词汇,包括:
筛选第三概率小于第三预定值的第二集合,并从筛选得到的第二集合中获取所有的词汇,得到所述疑似错误词汇。


16.根据权利要求14所述的方法,其特征在于,所述语料库中每两个词汇共同出现的概率具体为,其中一个词汇出现在另外一个词汇的后面的概率;
确定所述第三概率包括,
根据所述语料库中每两个词汇共同出现的概率,确定所述第三集合中的Q个词汇按照第二预定顺序共同出现的概率,得到所述第三概率,其中,所述第二预定顺序为所述第二集合中的Q个词汇在所述待检测文本中的顺序。


17.根据权利要求10所述的方法,其特征在于,所述方法还包括:
对所述语料库中的所有文本进行预处理;
确定预处理后的语料库中每两个字符共同出现的概率;
确定预处理后的语料库中每两个词汇共同出现的概率;
基于预处理后的语料库中每两个字符共同出现的概率和每两个词汇共同出现的概率,从所述待检测文本中筛选疑似错误词汇和疑似错误字符。


18.根据权利要求17所述的方法,其特征在于,所述确定预处理后的语料库中每两个字符共同出现的概率,包括:
确定预处理后的语料库中每两个字符共同出现的频次,并根据得到的频次确定每两个字符共同出现的频率。


19.根据权利要求18所述的方法,其特征在于,所述每两个字符共同出现的频次具体为,其中的一个字符出现在另一个字符的后面的频次。


20.根据权利要求18所述的方法,其特征在于,所述方法还包括:
将预处理后的语料库中每两个字符共同出现的频次与第四预定值相加,得到更新后的每两个字符共同出现的频次。


21.根据权利要求17所述的方法,其特征在于,所述确定预处理后的语料库中每两个词汇共同出现的概率,包括:
确定预处理后的语料库中每两个词汇共同出现的频次,并根据得到的频次确定每两个词汇共同出现的频率。


22.根据权利要求21所述的方法,其特征在于,所述每两个词汇共同出现的频次具体为,其中的一个词汇出现在另一个词汇的后面的频次。


23.根据权利要求21所述的方法,其特征在于,所述方法还包括:
将预处理后的语料库中每两个词汇共同出现的频次与第五预定值相加,得到更新后的每两个词汇共同出现的频次。


24.根据权利要求17所述的方法,其特征在于,所述语料库包括至少一个文本;
所述对所述语料库中的所有文本进行预处理,包括:
在每个文本的第一个字符之前添加第一预定字符;
在每个文本的最后一个字符之后添加第二预定字符;
将每个文本中除汉字符之外的所有字符均替换为第三预定字符;
将连续的多个第三预定字符替换为一个所述第三预定字符。


25.根据权利要求24所述的方法,其特征在于,所述方法还包括:
对预处理后的文本进行分词处理,得到所述语料库的若干个词汇;
基于所述语料库的词汇,确定预处理后的语料库中每两个词汇共同出现的概率。


26.根据权利要求24或25所述的方法,其特征在于,所述方法还包括对所述待检测文本进行预处理的步骤:
在所述待检测文本的第一个字符之前添加所述第一预定字符;
在所述待检测文本的最后一个字符之后添加所述第二预定字符;
将待检测文本中除汉字符之外的所有字符均替换为第三预定字符;
将连续的多个第三预定字符替换为一个所述第三预定字符。


27.根据权利要求26所述的方法,其特征在于,所述方法还包括:
对所述待检测文本进行分词处理,得到所述待检测文本的若干个词汇;
基于所述待检测文本的词汇以及所述语料库,筛选所述疑似错误词汇。


28.一种文本检错装置,其特征在于,包括:
数据库匹配模块,用于基于待检测文本所属领域,获取与该领域匹配的存储有正确文本的语料库;
第一筛选模块,用于基于所述存储有正确文本的语料库,从待检测文本中筛选疑似错误语料;所述...

【专利技术属性】
技术研发人员:张占秋李帅王伟玮王杰
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1