一种OCR文字提取的定位装置制造方法及图纸

技术编号:40879881 阅读:32 留言:0更新日期:2024-04-08 16:50
本发明专利技术提出一种OCR文字提取的定位装置,包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块,本发明专利技术能够快速将图片中的文字快速的找到原有的位置,特别是在提取的文字内容出现重复的情况下也能够一一对应,能够使得提取遗漏、提取错误更容易被发现,减少了人工复核的工作量,当数字化文字提取被用来检验原文件的各种正确率时,由于内容与位置的绑定,文字有了位置的要求,减少因为文字内容的重复等原因导致的误判解决了文字识别因为排列不规则而导致的识别错误的问题,划分区域设置经纬度对每个文字设置位置坐标,减少了文字识别的错误,在图片中识别的每个文字均有对应的坐标,文字出现遗漏的时根据文字坐标快速查漏补缺。

【技术实现步骤摘要】

本专利技术涉及ocr识别,特别涉及一种ocr文字提取的定位装置。


技术介绍

1、ocr是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是ocr最重要的课题。衡量一个ocr系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

2、版式数据流文件对于扫描件、图片文字的提取使用截图再使用ocr工具进行识别,不便于保存记录,现有技术通过ocr工具识别的文字结果无法保存到文件不便于阅读,ocr识别到的文字结果和与文件中的位置进行恢复便于选中、搜索、复制等操作。


技术实现思路

1、本专利技术的目的在于提供一种ocr文字提取的定位装置,以解决上述
技术介绍
中提出的问题。

本文档来自技高网...

【技术保护点】

1.一种OCR文字提取的定位装置,其特征在于,包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块,所述文字内容辨别模块用于遍历文件,解析文件中每一页的内容描述文件,辨别出页面内容描述文件中存在的图像对象;

2.根据权利要求1所述的一种OCR文字提取的定位装置,其特征在于:所述文字内容辨别模块辨别页面内容描述文件中是否存在图像对象时,当存在图像对象则获取图像对象指向的文件资源的路径地址,若不存在图像对象则解析下一页。

3.根据权利要求1所述的一种OCR文字提取的定位装置,其特征在于:所述经纬度生成模块生成经纬度包括以下步骤

4....

【技术特征摘要】

1.一种ocr文字提取的定位装置,其特征在于,包括文字内容辨别模块、经纬度生成模块、ocr转换服务模块、文本位置对应模块,所述文字内容辨别模块用于遍历文件,解析文件中每一页的内容描述文件,辨别出页面内容描述文件中存在的图像对象;

2.根据权利要求1所述的一种ocr文字提取的定位装置,其特征在于:所述文字内容辨别模块辨别页面内容描述文件中是否存在图像对象时,当存在图像对象则获取图像对象指向的文件资源的路径地址,若不存在图像对象则解析下一页。

3.根据权利要求1所述的一种ocr文字提取的定位装置,其特征在于:所述经纬度生成模块生成经纬度包括以下步骤:

4.根据权利要求1所述的一种ocr文字提取的定位装置,其特征在于:所述ocr转换服务模块识别文...

【专利技术属性】
技术研发人员:严伟何中朱聪聪蒋烽顾志平戴健峰
申请(专利权)人:江苏中威科技软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1