【技术实现步骤摘要】
文本纠错方法、装置、电子设备及存储介质
本申请涉及计算机应用技术,特别涉及自然语言处理领域的文本纠错方法、装置、电子设备及存储介质。
技术介绍
文本纠错(即文本错误纠正)除了包括错别字纠正和用词错误纠正外,还包括多字、少字等文法错误纠正。多字是指文本中增加了多余的文字,从而导致语句不通顺,如“农村这种种美味的野草”,其中的“种种”的一个“种”为多字。少字是指文本中缺少了文字,从而导致语句不通顺,如“这才鸡翅的正确做法”,其中“才”和“鸡”之间缺少了“是”字。目前,多采用基于统计的传统文本纠错方法来解决多字和少字的问题,但这种方法主要适用于用词错误等问题的纠错,对于多字和少字的文法错误并不适用,从而导致多字和少字时的纠错结果的准确性较差。
技术实现思路
本申请提供了文本纠错方法、装置、电子设备及存储介质。一种文本纠错方法,包括:获取待处理的文本,通过在预定位置增加空字符,确定出所述待处理的文本中是否存在文法错误,所述文法错误为多字或少字;若确定所述待处理的文本中存在多 ...
【技术保护点】
1.一种文本纠错方法,包括:/n获取待处理的文本,通过在预定位置增加空字符,确定出所述待处理的文本中是否存在文法错误,所述文法错误为多字或少字;/n若确定所述待处理的文本中存在多字的文法错误,则去除所述待处理的文本中的多余的文字,若确定所述待处理的文本中存在少字的文法错误,则在所述待处理的文本中补入所缺少的文字。/n
【技术特征摘要】
1.一种文本纠错方法,包括:
获取待处理的文本,通过在预定位置增加空字符,确定出所述待处理的文本中是否存在文法错误,所述文法错误为多字或少字;
若确定所述待处理的文本中存在多字的文法错误,则去除所述待处理的文本中的多余的文字,若确定所述待处理的文本中存在少字的文法错误,则在所述待处理的文本中补入所缺少的文字。
2.根据权利要求1所述的方法,其中,通过在预定位置增加空字符,确定出所述待处理的文本中是否存在多字的文法错误包括:
对所述待处理的文本进行多字识别,所述多字识别包括:针对所述待处理的文本中的任一文字,分别进行以下第一处理:获取所述文字的N个候选,N为大于一的正整数,所述N个候选中包括所述文字本身,并为所述文字增加一个空字符候选;从N+1个候选中选出应该出现在所述文字所在位置的候选;若选出的候选为所述空字符,则确定所述待处理的文本中存在多字的文法错误。
3.根据权利要求2所述的方法,其中,所述去除所述待处理的文本中的多余的文字包括:针对所述待处理的文本中的任一文字,若确定选出的候选为所述空字符,则将所述文字替换为所述空字符。
4.根据权利要求3所述的方法,还包括:
若确定所述待处理的文本中存在多字的文法错误,则针对得到的纠错后的文本,执行以下第二处理:将所述纠错后的文本作为所述待处理的文本,进行所述多字识别;若确定所述待处理的文本中存在多字的文法错误,则去除所述待处理的文本中的多余的文字,得到纠错后的文本,并重复执行所述第二处理;若确定所述待处理的文本中不存在多字的文法错误,则将所述待处理的文本作为最终所需的文本。
5.根据权利要求1所述的方法,其中,通过在预定位置增加空字符,确定出所述待处理的文本中是否存在少字的文法错误包括:
对所述待处理的文本进行少字识别,所述少字识别包括:在所述待处理的文本中的每相邻两个文字之间、第一个文字之前以及最后一个文字之后分别插入一个空字符;针对任一空字符,分别进行以下第三处理:获取所述空字符的N个候选,N为大于一的正整数,所述N个候选中包括所述空字符本身;从N个候选中选出应该出现在所述空字符所在位置的候选;若选出的候选不是所述空字符,则确定所述待处理的文本中存在少字的文法错误。
6.根据权利要求5所述的方法,其中,所述在所述待处理的文本中补入所缺少的文字包括:针对任一空字符,若确定选出的候选不是所述空字符,则用选出的候选替换所述空字符。
7.根据权利要求6所述的方法,还包括:
若确定所述待处理的文本中存在少字的文法错误,则针对得到的纠错后的文本,执行以下第四处理:将所述纠错后的文本作为所述待处理的文本,进行所述少字识别;若确定所述待处理的文本中存在少字的文法错误,则在所述待处理的文本中补入所缺少的文字,得到纠错后的文本,并重复执行所述第四处理;若确定所述待处理的文本中不存在少字的文法错误,则将所述待处理的文本作为最终所需的文本。
8.一种文本纠错装置,包括:获取模块以及纠错模块;
所述获取模块,用于获取待处理的文本;
所述纠错模块,用于通过在预定位置增加空字符,确定...
【专利技术属性】
技术研发人员:邓卓彬,罗希意,徐梦笛,赖佳伟,付志宏,何径舟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。