【技术实现步骤摘要】
本专利技术涉及光学字符识别,具体为基于大数据分析的ocr识别系统。
技术介绍
1、随着信息技术的快速发展,ocr(光学字符识别)技术作为一种高效、自动化的文字识别手段,已经广泛应用于文档扫描、图像处理、自动化数据录入多个领域,极大地提高了数据处理和信息提取的效率,ocr技术能够将图像中的文字转换为可编辑和可搜索的文本格式,为用户提供了极大的便利。
2、传统ocr技术主要依赖于静态的图像处理和模式识别算法,对于环境因素的变化缺乏足够的适应性和鲁棒性,如在湿度、温度、光线环境条件发生显著变化时,传统ocr技术可能会出现识别错误率上升、识别速度下降的问题,此外,传统ocr技术对于图像中的噪声、变形干扰因素的处理能力也相对有限,这进一步限制了其在复杂环境中的应用范围,同时,传统ocr技术往往采用单一的识别模型,难以根据环境复杂度的变化进行灵活调整,从而影响了其识别效果。
3、因此,开发基于大数据分析的ocr识别系统,为ocr技术的发展和应用开辟新的道路。
技术实现思路
1、
...【技术保护点】
1.基于大数据分析的OCR识别系统,其特征在于,该系统包括:环境数据采集模块、数据预处理模块、大数据分析与处理模块、模型选择与调整模块、OCR识别模块以及反馈优化模块;
2.根据权利要求1所述的基于大数据分析的OCR识别系统,其特征在于,所述数据预处理模块中低光照下的直方图均衡化,计算图像的灰度直方图,设图像I(x,y)的灰度级范围是[0,L-1],其中x和y是图像的像素坐标,统计每个灰度级k(0≤k≤L-1)出现的频率p(k),计算公式为:其中,nk是灰度级为k的像素个数,M×N是图像的总像素数,计算累计分布函数CDF,公式为:计算均衡化后的灰度值T(k
...【技术特征摘要】
1.基于大数据分析的ocr识别系统,其特征在于,该系统包括:环境数据采集模块、数据预处理模块、大数据分析与处理模块、模型选择与调整模块、ocr识别模块以及反馈优化模块;
2.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征在于,所述数据预处理模块中低光照下的直方图均衡化,计算图像的灰度直方图,设图像i(x,y)的灰度级范围是[0,l-1],其中x和y是图像的像素坐标,统计每个灰度级k(0≤k≤l-1)出现的频率p(k),计算公式为:其中,nk是灰度级为k的像素个数,m×n是图像的总像素数,计算累计分布函数cdf,公式为:计算均衡化后的灰度值t(k),公式为:t(k)=round((l-1)×c(k)),其中,round函数是对结果进行四舍五入取整操作,将原图像中灰度值为k的像素点的灰度值替换为t(k),得到直方图均衡化后的图像。
3.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征在于,所述数据预处理模块中强光下的伽马校正,设原图像像素点的灰度值为i(x,y),伽马校正后的灰度值为o(x,y),伽马值为γ且γ>0,则伽马校正公式为:
4.根据权利要求3所述的基于大数据分析的ocr识别系统,其特征在于,所述数据预处理模块中伽马值根据图像的平均亮度bavg来调整伽马值γ,计算公式为:γ=1+k×(bavg-bth),其中k是比例系数,bth是强光判断阈值,平均亮度bavg,设图像的像素点坐标为(x,y),亮度值为i(x,y),图像的总像素数为m×n,平均亮度计算公式为:强光判断阈值取bth=350cd/m2。
5.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征在于,所述模型选择与调整模块中环境复杂度阈值eth的确定,通过环境复杂度综合评估公式计算环境复杂度综合评估公式值e,记录每个环境下使用简单ocr识别模型的识别准确率a,计算公式为:其中ncorrect是正确识别的文字数量,ntotal是待识别文字的总数量,绘制环境复杂度e与识别准确率a的关系曲线,观察曲线的变化趋势,识别准确率明显下降的环境复杂度点,作为阈值eth。
6.根据权利要求1所述的基于大数据分析的ocr识别系统,其特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。