一种基于OCR图像识别的档案管理系统技术方案

技术编号:40397625 阅读:27 留言:0更新日期:2024-02-20 22:25
本发明专利技术公开了一种基于OCR图像识别的档案管理系统,属于图像处理技术领域,具体包括:图像处理模块,用于对档案图像进行采集,并对所述档案图像进行预处理;字符分割模块,用于将文字区域分割为若干字符区域,检测每个字符区域的宽高比值,将宽高比值大于阈值的字符区域进行再切割,得到待处理字符区域;字符合并模块,用于筛选宽度低于正常宽度区间下限的待处理字符区域,并进行字符区域合并;文本识别模块,用于对字符区域进行文字识别,得到识别文本,对识别文本进行自然语言处理,得到校正档案文档;本发明专利技术通过对字符区域进行了多重处理和校正,提高了后续文字识别的准确度,实现了对格式不规范档案中的字符的准确切割。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体涉及一种基于ocr图像识别的档案管理系统。


技术介绍

1、目前,对于档案进行数字化处理,已经成为档案工作中的重中之重,对于纸质档案进行扫描将其作为以图像形式存在的文件。但是这种文本文件并不是真正意义上的文本文件,无法对文件内容进行翻译、搜索、提取信息,而是仅仅作为原版纸质文档的影像化存储,不能为快速进行文本数据的分类,内容管理提供数据支持。

2、ocr(optical character recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

3、因此,ocr识别技术被广泛应用于档案文本数据的识别中,但仍然存在一些问题,ocr系统通常过度依赖于字符切分的结果,但是对于一些格式不太规范的档案,如手写档案或者早期印刷档案,存在字符粘连、本文档来自技高网...

【技术保护点】

1.一种基于OCR图像识别的档案管理系统,其特征在于,包括:

2.根据权利要求1所述的一种基于OCR图像识别的档案管理系统,其特征在于,所述图像处理模块中,对所述档案图像进行预处理过程为:

3.根据权利要求2所述的一种基于OCR图像识别的档案管理系统,其特征在于,所述字符分割模块中,将文字区域分割为若干字符区域过程为:

4.根据权利要求1所述的一种基于OCR图像识别的档案管理系统,其特征在于,所述字符分割模块中,得到正常宽度区间[A,B]的过程为:

5.根据权利要求1所述的一种基于OCR图像识别的档案管理系统,其特征在于,所述字符分割模块中...

【技术特征摘要】

1.一种基于ocr图像识别的档案管理系统,其特征在于,包括:

2.根据权利要求1所述的一种基于ocr图像识别的档案管理系统,其特征在于,所述图像处理模块中,对所述档案图像进行预处理过程为:

3.根据权利要求2所述的一种基于ocr图像识别的档案管理系统,其特征在于,所述字符分割模块中,将文字区域分割为若干字符区域过程为:

4.根据权利要求1所述的一种基于ocr图像识别的档案管理系统,其特征在于,所述字符分割模块中,得到正常宽度区间[a,b]的过程为:

5.根据权利要求1所...

【专利技术属性】
技术研发人员:高肇冬虞军平花成山刘学超顾鑫陈一飞
申请(专利权)人:北京朗杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1