【技术实现步骤摘要】
一种文本纠错方法及装置
[0001]本申请涉及自然语言处理
,尤其涉及一种文本纠错方法及装置。
技术介绍
[0002]光学字符识别(optical character recognition,OCR)是指针对电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。但由于图像质量、页面复杂等原因可能会导致OCR识别之后的文本出现错误,因此,逐渐出现了OCR文本纠错技术。
[0003]目前,在对OCR文本进行纠错时,通常是将OCR技术识别得到的文本作为纠错模型的输入文本,然后纠错模型对OCR输入文本进行纠错,得到纠错之后的文本,最后输出纠错之后的文本。这种方法可能使得OCR识别之后的文本和纠错之后的文本的单词个数不同,此时就无法确定纠错之后的文本是正确的还是OCR识别之后的文本是正确的,也有可能将OCR识别得到的正确文本纠错,因此,这种方法的精准度较低。
技术实现思路
[0004]本申请提供一种文本纠错方法及装置,用以提高文
【技术保护点】
【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:获取第一光学字符识别OCR文本和第一纠错文本,所述第一纠错文本为利用纠错模型对所述第一OCR文本进行纠错得到的;将所述第一OCR文本和所述第一纠错文本进行对齐,得到第二OCR文本和第二纠错文本,所述第二OCR文本和所述第二纠错文本的单词数量相同;针对所述第二OCR文本和所述第二纠错文本,确定文本纠错位置;在所述第二OCR文本、所述第二纠错文本以及候选词中,确定所述纠错位置处的最优纠错词。2.如权利要求1所述的方法,其特征在于,将所述第一OCR文本和所述第一纠错文本进行对齐,得到第二OCR文本和第二纠错文本,包括:确定所述第一OCR文本和所述第一纠错文本的字符个数相同;对所述第一OCR文本和所述第一纠错文本按照空格进行分词,依次比较所述第一OCR文本和所述第一纠错文本在每一个位置处的单词的长度;所述单词为分词处理后得到的单词;根据所述单词的长度对所述第一OCR文本和所述第一纠错文本中单词个数较多的文本进行单词合并,得到第二OCR文本和第二纠错文本;或者根据所述单词的长度对所述第一OCR文本和所述第一纠错文本中单词个数较少的文本进行符号补充,得到第二OCR文本和第二纠错文本。3.如权利要求2所述的方法,其特征在于,所述方法还包括:若确定所述第一OCR文本和所述第一纠错文本的字符个数不相同,则对所述第一OCR文本和所述第一纠错文本进行预对齐,得到第三OCR文本和第三纠错文本。4.如权利要求3所述的方法,其特征在于,对所述第一OCR文本和所述第一纠错文本进行预对齐,得到第三OCR文本和第三纠错文本,包括:依次计算所述第一OCR文本中的每一个字符与所述第一纠错文本中的每一个字符之间的编辑距离;根据所述编辑距离的大小对所述第一OCR文本和所述第一纠错文本中字符个数较少的文本进行字符补充,得到第三OCR文本和第三纠错文本,所述第三OCR文本与所述第三纠错文本的字符个数相同,且所述第三OCR文本与所述第三纠错文本中的每一个字符之间的编辑距离最小。5.如权利要求1所述的方法,其特征在于,针对所述第二OCR文本和所述第二纠错文本,确定文本纠错位置,包括:将所述第二OCR文本与所述第二纠错文本按照空格进行对齐,并将所述第二OCR文本与所述第二纠错文本中字符个数相同但字符不同的位置确定为文本纠错位置。6.如权利要求1至5中任一所述的方法,其特征在于,所述候选词通过如下方式确定:将所述第二OCR文本在所述文本纠错位置处的单词与预先保存的词库中的N个单词依次进行比较,得到所述第二OCR文本在所述文本纠错位置处的单词与所述N个单词的N个编辑距离,所述N为正整数;在所述N个编辑距离中选择M个编辑距离,并将所述M个编辑距离对应的M个单词作为候选词,所述M<N,且M为正整数。
7.如权利要求6所述的方法,其特征在于,在所述第二OCR文本、所述第二纠错文本以及候选词中,确定所述纠错位置处的最优纠错词,包括:若确定所述第二纠错文本在所述纠错位置处的单词在所述词库中,则将所述第二纠错文本在所述纠错位置处的单词作为最优纠错词;若确定所述第二纠错文本在所述纠错位置处的单词不在所述词库中,且确定所述候选词中存在满足预设条件的候选词,则将满足预设条件的候选词作为最优纠错词;若确定所述候选词中不存在满足预设条件的候选词,则将所述第二OCR文本在所述纠错位置处的单词作为最优纠错词;其中,所述预设条件包括如下条件中的任意一项:所述候选词和所述第二OCR文本在所述纠错位置处的单词之间的编辑距离与第一设定单词对应的单词长度的比值小于设定阈值,所述第一设定单词为在所述候选词和所述第二OCR文本在所述纠错位置处的单词中选择的单词长度最长的单词;或者所述候选词和所述第二OCR文本在所述纠错位置处的单词之间的编辑距离与所述第二OCR文本在所述纠错位置处的单词的比值小于设定阈值;或者所述候选词和所述第二OCR文本在所述纠错位置处的单词之间的编辑距离小于设定阈值。8.一种文本纠错装置,其特征在于,包括:获取模块,用于获取第一光学字符识别OCR文本和第一纠错文本,所述第一纠错文本为利用纠错模型对所述第一OCR文本进行纠错得到的;处理模块,用于将所述获取模块获取到的所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。