【技术实现步骤摘要】
一种基于OCR的文本纠错方法、系统及存储介质
[0001]本专利技术涉及一种文本纠错方法,尤其是基于OCR的文本纠错方法。
技术介绍
[0002]办公过程中,经常需要将纸质文件内容录入系统中,人工录入费时费力,尤其是重复性的文件录入,迫切需要将这个过程自动化,而OCR即为能实现该过程的技术手段。文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印刷体或手写体文字进行读取识别,转化成计算机和人都能够识读的格式。
[0003]OCR识别过程一般分为以下几个步骤:文本检测、文本识别和后处理;其中后处理对于提高OCR识别结果的准确率至关重要,包括文本合并及纠错。对于OCR文字纠错中主要涉及三类错误:错字、少字和多字;目前针对OCR文字纠错主要是针对第一种类型的错误,即对形近字进行纠错,采用的方法主要有两种:基于形近词词典进行文字纠错,以及基于Bert模型等进行文本纠错。其中,基于形近词词典进行纠错,需要得到一个比较好且全面的形近词词典 ...
【技术保护点】
【技术特征摘要】
1.一种基于OCR的文本纠错方法,包括如下步骤:(1)输入待识别图片,进行文本检测和CRNN+CTC文字识别,得到概率矩阵、每个文字的概率向量、文本内容和两个文字间的像素间隔向量;(2)在概率矩阵中获取每一列前k+1个概率值对应的其他k个文字,得到候选文本矩阵;(3)对文本内容进行分词,若词语不在常用词词典中,且词语中任一个字的概率小于阈值,则利用形近词词典和候选文本矩阵得到该字候选集,进行循环替换,否则保留原词;(4)若文字的概率向量小于阈值ppl_thre2且像素间隔向量小于阈值d_thre1,则进行循环删字,否则保留原词;(5)若文字的像素间隔向量大于阈值d_thre2,则进行循环加字,否则保留原词;(6)输出纠错后的OCR识别文本。2.根据权利要求1所述的基于OCR的文本纠错方法,其特征在于,所述步骤(3)还包括:若循环替换后句子的困惑向量的最小值ppl
m
满足不等式ppl
m
≤ppl_thre*ppl
o
,则进行替换,否则保留原词;其中ppl_thre为困惑度阈值,ppl
o
为替换前句子的困惑度。3.根据权利要求1所述的基于OCR的文本纠错方法,其特征在于,所述步骤(4)还包括:若循环删字后句子的困惑向量满足不等式则删掉i
j
位置的字,否则保留该字。4.根据权利要求1所述的基于OCR的文本纠错方法,其特征在于,所述步骤(5)还包括:若循环加字后句子的困惑向量的最小值ppl
m
′
满足不等式ppl
m
′
≤ppl_thre*ppl
o
,则进行加字,否则保留原词。5.根据权利要求1所述的基于OCR的文本纠错方法,其特征在于,所述步骤(5...
【专利技术属性】
技术研发人员:饶淑梅,吕晓宝,王元兵,王海荣,
申请(专利权)人:中科曙光南京研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。