基于大数据分析的OCR识别系统技术方案

技术编号:45058729 阅读:19 留言:0更新日期:2025-04-22 17:41
本发明专利技术公开了基于大数据分析的OCR识别系统,涉及光学字符识别技术领域,该系统包括:环境数据采集模块、数据预处理模块、大数据分析与处理模块、模型选择与调整模块、OCR识别模块以及反馈优化模块;本发明专利技术通过运用多种传感器和复杂的数据预处理技术,提升了OCR识别系统的环境适应能力,系统能够实时采集环境湿度、温度、光线、震动和倾斜多维度数据,并通过滤波器去除噪声、归一化处理步骤,提升了数据的准确性和可靠性,在文字图像数据的预处理上,能够自动裁剪文字区域、去除背景部分,并根据光线强度进行自适应的图像增强处理,包括低光照下的直方图均衡化和强光下的伽马校正,从而降低了环境因素对OCR识别效果的影响。

【技术实现步骤摘要】

本专利技术涉及光学字符识别,具体为基于大数据分析的ocr识别系统。


技术介绍

1、随着信息技术的快速发展,ocr(光学字符识别)技术作为一种高效、自动化的文字识别手段,已经广泛应用于文档扫描、图像处理、自动化数据录入多个领域,极大地提高了数据处理和信息提取的效率,ocr技术能够将图像中的文字转换为可编辑和可搜索的文本格式,为用户提供了极大的便利。

2、传统ocr技术主要依赖于静态的图像处理和模式识别算法,对于环境因素的变化缺乏足够的适应性和鲁棒性,如在湿度、温度、光线环境条件发生显著变化时,传统ocr技术可能会出现识别错误率上升、识别速度下降的问题,此外,传统ocr技术对于图像中的噪声、变形干扰因素的处理能力也相对有限,这进一步限制了其在复杂环境中的应用范围,同时,传统ocr技术往往采用单一的识别模型,难以根据环境复杂度的变化进行灵活调整,从而影响了其识别效果。

3、因此,开发基于大数据分析的ocr识别系统,为ocr技术的发展和应用开辟新的道路。


技术实现思路

1、本专利技术的目的就是本文档来自技高网...

【技术保护点】

1.基于大数据分析的OCR识别系统,其特征在于,该系统包括:环境数据采集模块、数据预处理模块、大数据分析与处理模块、模型选择与调整模块、OCR识别模块以及反馈优化模块;

2.根据权利要求1所述的基于大数据分析的OCR识别系统,其特征在于,所述数据预处理模块中低光照下的直方图均衡化,计算图像的灰度直方图,设图像I(x,y)的灰度级范围是[0,L-1],其中x和y是图像的像素坐标,统计每个灰度级k(0≤k≤L-1)出现的频率p(k),计算公式为:其中,nk是灰度级为k的像素个数,M×N是图像的总像素数,计算累计分布函数CDF,公式为:计算均衡化后的灰度值T(k),公式为:T(k)...

【技术特征摘要】

1.基于大数据分析的ocr识别系统,其特征在于,该系统包括:环境数据采集模块、数据预处理模块、大数据分析与处理模块、模型选择与调整模块、ocr识别模块以及反馈优化模块;

2.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征在于,所述数据预处理模块中低光照下的直方图均衡化,计算图像的灰度直方图,设图像i(x,y)的灰度级范围是[0,l-1],其中x和y是图像的像素坐标,统计每个灰度级k(0≤k≤l-1)出现的频率p(k),计算公式为:其中,nk是灰度级为k的像素个数,m×n是图像的总像素数,计算累计分布函数cdf,公式为:计算均衡化后的灰度值t(k),公式为:t(k)=round((l-1)×c(k)),其中,round函数是对结果进行四舍五入取整操作,将原图像中灰度值为k的像素点的灰度值替换为t(k),得到直方图均衡化后的图像。

3.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征在于,所述数据预处理模块中强光下的伽马校正,设原图像像素点的灰度值为i(x,y),伽马校正后的灰度值为o(x,y),伽马值为γ且γ>0,则伽马校正公式为:

4.根据权利要求3所述的基于大数据分析的ocr识别系统,其特征在于,所述数据预处理模块中伽马值根据图像的平均亮度bavg来调整伽马值γ,计算公式为:γ=1+k×(bavg-bth),其中k是比例系数,bth是强光判断阈值,平均亮度bavg,设图像的像素点坐标为(x,y),亮度值为i(x,y),图像的总像素数为m×n,平均亮度计算公式为:强光判断阈值取bth=350cd/m2。

5.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征在于,所述模型选择与调整模块中环境复杂度阈值eth的确定,通过环境复杂度综合评估公式计算环境复杂度综合评估公式值e,记录每个环境下使用简单ocr识别模型的识别准确率a,计算公式为:其中ncorrect是正确识别的文字数量,ntotal是待识别文字的总数量,绘制环境复杂度e与识别准确率a的关系曲线,观察曲线的变化趋势,识别准确率明显下降的环境复杂度点,作为阈值eth。

6.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征...

【专利技术属性】
技术研发人员:尹勇李晨
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1