一种OCR文本纠错方法及装置制造方法及图纸

技术编号:36449563 阅读:26 留言:0更新日期:2023-01-25 22:45
本申请提出了一种OCR文本纠错方法及装置,获得待纠错文本中每个位置的汉字的正确概率;获取待纠错文本中每个位置的汉字的字形结构词嵌入向量;根据待纠错文本中每个位置的汉字对应的词嵌入向量、正确概率及字形结构词嵌入向量计算每个位置的汉字的输入词嵌入向量,并形成输入词嵌入向量集,将输入词嵌入向量集输入第二编码器编码形成编码后的输入词嵌入多维向量;将编码后的输入词嵌入多维向量输入纠错层获得纠错后的文本,所述纠错层设置有通过中文语料训练形成的纠错神经网络。本申请所述的一种OCR文本纠错方法及装置不再采用从已有的混淆集中选择候选词进行纠错,减少出现漏字的情况,提高纠错的准确性。提高纠错的准确性。提高纠错的准确性。

【技术实现步骤摘要】
一种OCR文本纠错方法及装置


[0001]本申请涉及文本纠错
,尤其涉及一种OCR文本纠错方法及装置。

技术介绍

[0002]OCR的全称是光学字符识别,主要利用了图像信息进行识别,在医疗场景应用广泛。在实际场景中,由于图像质量较差、位置倾斜等原因,造成OCR识别错误,大幅影响下游任务性能,所以针对OCR场景的文本纠错非常重要。
[0003]目前,传统的文本纠错系统主要由三个模块Pipeline组成:错误检测模块、候选召回模块、纠错排序模块,三个模块相互独立。
[0004](1)错误检测模块:识别错误发生的位置。
[0005](2)候选召回模块:对疑似的错误词,根据已有混淆集对错词进行候选词召回。其中混淆集通常通过离线候选挖掘,采用近似词、实际OCR识别错误等方法构建。
[0006](3)纠错排序模块:根据语言模型等对纠错后的结果进行排序,选择最优结果。
[0007]但是上述方法中,基于已有的混淆集进行候选词召回,已有的混淆集的选词范围有局限,可能出现候选词遗漏,降低准确率。r/>
技术实现思路
<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种OCR文本纠错方法,其特征在于,所述方法包括:将待纠错文本进行向量化获得待纠错文本中每个位置的汉字的词嵌入向量,并将向量化的待纠错文本依次输入第一编码器及检测层,获得待纠错文本中每个位置的汉字的正确概率;将待纠错文本输入预先训练的字形结构词嵌入网络模型,获取待纠错文本中每个位置的汉字的字形结构词嵌入向量;根据待纠错文本中每个位置的汉字对应的词嵌入向量、正确概率及字形结构词嵌入向量计算每个位置的汉字的输入词嵌入向量,并将待纠错文本中所有位置的汉字的输入词嵌入向量按位置顺序排列形成输入词嵌入向量集;将输入词嵌入向量集输入第二编码器编码形成编码后的输入词嵌入多维向量;将编码后的输入词嵌入多维向量输入纠错层获得纠错后的文本,所述纠错层设置有通过中文语料训练形成的纠错神经网络。2.根据权利要求1所述的方法,其特征在于,根据待纠错文本中每个位置的汉字对应的词嵌入向量、正确概率及字形结构词嵌入向量计算每个位置的汉字的输入词嵌入向量,具体计算公式包括:Em
(n)
=Pn*Es
(n)
+(1

Pn)*Ew
(n)
,其中,n为纠错文本中的汉字位置序号,n小于或等于纠错文本的汉字总数;Em
(n)
为待纠错文本中第n个位置的汉字的输入词嵌入;Es
(n)
为待纠错文本中第n个位置的汉字的词嵌入向量;Ew
(n)
为待纠错文本中第n个位置的汉字的字形结构词嵌入向量;Pn为待纠错文本中第n个位置的汉字的正确概率。3.根据权利要求1所述的方法,其特征在于,所述将向量化的待纠错文本依次输入第一编码器及检测层,获得待纠错文本中每个位置的汉字的正确概率,包括,将向量化的待纠错文本输入第一编码器,所述第一编码器将待纠错文本中每个位置的汉字的词嵌入向量结合前后位置的汉字的词嵌入向量进行编码,输出多维向量;将第一编码器输出的多维向量作为检测层的输入,所述检测层将待纠错文本中每个位置的汉字对应的包含上下文语义的向量降为一维向量形成该位置的汉字的正确概率。4.根据权利要求1所述的方法,其特征在于,将待纠错文本输入预先训练的字形结构词嵌入网络模型之前,进一步包括:训练字形结构词嵌入网络模型,具体方法为,定义汉字中每种笔画及每种结构特征的数字编号,从汉字数据集中提取汉字;获取每个汉字对应的结构特征及所述结构特征对应的结构特征编号;获取每个汉字结构特征的结构顺序,根据结构顺序依次提取每个结构的笔画,按照该汉字的笔画顺序形成对应的笔画编号;每个汉字的结构特征编号与笔画编号组合形成该汉字的数字编号,将每个汉字的数字编号通过词嵌入向量化获得该汉字的字形结构词嵌入向量;将多个汉字及各汉字对应的字形结构词嵌入向量输入深度学习网络进行训练获得字
形结构词嵌入网络模型。5.根据权利要求1所述的方法,其特征在于,通过中文语料训练形成纠错神经网络,包括:获取中文语料,所述中文语料包括多条中文词句的编码后的输入词嵌入多维向量,将中文语料输入初始化的神经网络进行训练,正确汉字训练正确概率为一,错误汉字训练正确概率为零,获得纠错神经网络,...

【专利技术属性】
技术研发人员:袁晟君吴汇哲
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1