【技术实现步骤摘要】
一种OCR识别纠错装置和方法
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种OCR识别纠错装置和方法。
技术介绍
[0002]现有的OCR引擎内置有纠错功能,一般是将文本中每个字都纠一遍,通常基于通用的词库来进行纠错,但在特殊领域例如医药领域,例如药品的名称往往是一些特殊的名词,在通用词库中很多没有进行统计,如果采用现有的OCR引擎默认的纠错技术,会将正确的药品名称判断为错误的名称,从而错误地将这些词进行纠错,反而产生错误的结果,因此,现有OCR引擎不适合类似医药等特殊领域的文字识别,其OCR识别的纠错率很低,如何提高这些特殊领域OCR引擎的识别纠错率是该领域亟需解决的技术问题。
技术实现思路
[0003]本专利技术为解决现有技术中存在的上述缺陷,提出一种OCR识别纠错装置和方法。
[0004]为了实现以上目的,本专利技术提出了一种OCR识别纠错装置,包括特征抽取模块、特征拼接模块、分类检错模块、分类纠错模块、特征融合模块、纠错验证模块、目标函数模块,其中:
[0005]特征抽取模块 ...
【技术保护点】
【技术特征摘要】
1.一种OCR识别纠错装置,其特征是,包括特征抽取模块、特征拼接模块、分类检错模块、分类纠错模块、特征融合模块、纠错验证模块、目标函数模块,其中:特征抽取模块用以提取句子中每个字的特征;特征拼接模块用以将每个字的特征进行拼接;分类检错模块用以检测是否存在错别字;特征融合模块用以将特征进行融合得到特征库;分类纠错模块用以预测正确字;目标函数模块用以优化OCR识别纠错装置的参数以及度量OCR识别纠错装置的准确率。2.如权利要求1所述的装置,其特征是,所述特征抽取模块包括Bert模块和LSTM模块,其中:Bert模块用以提取句子中每个字的特征;LSTM模块用以提取句子中每个字的特征。3.如权利要求2所述的装置,其特征是,所述采用的Bert模型为12层的Bert模块。4.如权利要求2所述的装置,其特征是,所述采用的LSTM模块为1层的LSTM模块。5.如权利要求1所述的装置,其特征是,所述分类检错模块包括:检测网络单元:用以分类判断每个字是否正确;损失函数单元一:用以对检测网络单元计算损失,然后通过误差反向传播,让检测网络单元进行学习;辅助分类器:用以检测是否存在错别字。6.如权利要求1所述的装置,其特征是,所述特征融合模块采用CNN卷积神经网络...
【专利技术属性】
技术研发人员:曾祥云,朱姬渊,
申请(专利权)人:上海大参林医疗健康科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。