一种基于深度学习的OCR录入方法技术

技术编号：42953606 阅读：24 留言：0更新日期：2024-10-11 16:10

本发明专利技术公开一种基于深度学习的OCR录入方法，属于计算机视觉和自然语言处理，该方法首先由输入模块接收原始图像文档，接着自适应图像预处理模块动态调整阈值并应用多种技术预处理图像和文字，多模态融合识别模块用CNN和LSTM进行特征提取与序列建模并融合数据，高精度手写体识别模块利用多模态特征数据结合相关网络学习手写风格与特征，再结合文本上下文识别字体，多阶段后处理模块用NLP技术纠错并比对，确保准确性，输出模块根据识别结果和纠错对比结果输出正确文本，不匹配则进入人工纠错模块，此方法通过各模块的协同作用，可提高识别准确率、降低错误率，如预处理提高图像质量，多模态融合提高准确度，多阶段后处理确保字体准确性等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和自然语言处理领域，特别是一种基于深度学习的ocr录入方法。

技术介绍

1、在日常生活和工作中，我们经常需要处理各种手写文本，比如手写的文档、笔记、信件等。然而，传统的手写文本识别技术在实际应用中面临着诸多难题。

2、当遇到光照变化时，比如光线太强或太弱，手写文本的特征可能会变得不清晰，导致识别困难；背景如果比较杂乱，会让文本难以从背景中有效区分出来，增加了识别的复杂性；而字迹模糊更是常见问题，这会极大地影响识别的准确性。

3、在现有的技术中，虽然也有一些针对手写文本识别的方法，但它们在应对这些复杂情况时往往表现不够理想，识别准确率不高，容易出现错误。这不仅影响了工作效率，也限制了手写文本在数字化处理和利用方面的发展。因此，急需一种新的技术方案来有效解决光照变化、背景杂乱、字迹模糊等带来的识别不准确问题，提升手写文本识别的整体水平和适应性，这便是本专利技术产生的背景。同时，与现有专利技术相比，本专利技术在功能模块的设置和技术手段的运用上都有独特的创新之处，能更好地应对各种复杂情况，实现更精...

【技术保护点】

1.一种基于深度学习的OCR录入方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于深度学习的OCR录入方法，其特征在于；在步骤二中，自适应图像预处理模块具体地，首先使用图像分割算法，基于局部对比度和光照条件动态确定阈值，自动去除背景杂乱部分和非文本区域，然后利用自编码器进行降噪处理，通过训练自编码器模型学习图像的内部结构，去除图像噪声，亮度校正用于调整图像整体亮度和对比度，最后采用对抗学习锐化技术，增强图像边缘，提高文字轮廓的可见性。

3.根据权利要求1所述的基于深度学习的OCR录入方法，其特征在于；在步骤三的多模态融合识别模块中，先利用卷积神...

【技术特征摘要】

1.一种基于深度学习的ocr录入方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于深度学习的ocr录入方法，其特征在于；在步骤二中，自适应图像预处理模块具体地，首先使用图像分割算法，基于局部对比度和光照条件动态确定阈值，自动去除背景杂乱部分和非文本区域，然后利用自编码器进行降噪处理，通过训练自编码器模型学习图像的内部结构，去除图像噪声，亮度校正用于调整图像整体亮度和对比度，最后采用对抗学习锐化技术，增强图像边缘，提高文字轮廓的可见性。

3.根据权利要求1所述的基于深度学习的ocr录入方法，其特征在于；在步骤三的多模态融合识别模块中，先利用卷积神经网络(cnn)提取图像特征，通过多层卷积和池化操作，自动捕捉手写字符的形状、纹理和布局等视觉特征，接着，使用长短期记忆网络对字符序列进行建模，长短期记忆网络可以保留字符之间的长期依赖关系，注意力机制在此阶段被引入，它允许模型关注图像中最重要的部分，即文字区域，减少背景和其他非相关元素的影响。

4.根据权利要求1所述的基于深度学习的ocr录入方法，其特征在于；步骤四中，高精度手写体识别模块通过多模态特征数据，使用生成对抗网...

【专利技术属性】
技术研发人员：邓文杰，刘云龙，
申请(专利权)人：微世纪科技贵州有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人