一种保留原生内容的OCR双层文件生成方法技术

技术编号：33391514 阅读：24 留言：0更新日期：2022-05-11 23:08

本发明专利技术公开了一种保留原生内容的OCR双层文件生成方法，该方法包括以下步骤：对原生文件进行计算、光学字符识别及存储；获取待使用文件，记录文件id；根据所述文件id与页码，读取对应的光学字符识别结果；根据用户需求，返回不同类型结果。通过单独存储版式文件格式信息和OCR结果信息，在不改变原始数据内容的前提下提供“双层”版式文件的使用，并且能灵活控制输出“双层”版式文件、“单文字层”版式文件和原生文件，从而不改变原始数据内容，原生文件原有的电子签名以及区块链信息等都不会改变，保证了数据的安全性和可靠性。证了数据的安全性和可靠性。证了数据的安全性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种保留原生内容的OCR双层文件生成方法

[0001]本专利技术涉及文件处理
，具体来说，涉及一种保留原生内容的OCR双层文件生成方法。

技术介绍

[0002]近年来，数字经济快速发展成为中国经济发展的新动能，越来越多的数据通过网络交换并保存。版式文档是网络时代的“数字纸张”，指区别于流式文档，在跨平台、多系统下维持固定模式的办公文档，如pdf，ofd等。随着数字经济的成熟化发展，企业对数据信息安全的重视程度不断上升。对版式文件进行电子签名，区块链等安全相关技术飞速发展。
[0003]已存在的电子数据(文件)中，有很大一部分是图片形式，而对数据进行进一步处理，分析，应用的计算机程序(如搜索引擎，数据分析，OA系统等等)大部分主要使用的是文本信息，OCR技术应运而生。OCR，光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。
[0004]传统技术下OCR流程为，扫描版式文件内容，生成文本信息，然后在原版式文件基础上，加一层透明文字层，将文本信息结果按照识别的符号位置对原图像层进行遮罩。这样就形成”双层“文件，底层是原数据层(图像)，上层是透明文字层，人或程序使用时，主要通过文字层直接抽取相关文本信息使用。这种方式很好的解决了图像文件的后续程序难以分析的问题，但同时也引入了一个致命的安全问题：这种做法从数据层面改变了原生文件数据，数据合法性无法得到保障，...

【技术保护点】

【技术特征摘要】
1.一种保留原生内容的OCR双层文件生成方法，其特征在于，该方法包括以下步骤：对原生文件进行计算、光学字符识别及存储；获取待使用文件，记录文件id；根据所述文件id与页码，读取对应的光学字符识别结果；根据用户需求，返回不同类型结果。2.根据权利要求1所述的一种保留原生内容的OCR双层文件生成方法，其特征在于，所述对原生文件进行计算、光学字符识别及存储包括以下步骤：从数据库种读取文件id；按顺序抽取原生文件中的每一个页面；识别并记录当前页面内容的版式，保存入库；对当前页面内容进行光学字符识别，保存入库；合并识别结果与光学字符识别结果；若原生文件存在下一页，则继续进行页面识别与光学字符识别。3.根据权利要求2所述的一种保留原生内容的OCR双层文件生成方法，其特征在于，所述当前页面的版式包括当前页面的页码、宽及高。4.根据权利要求3所述的一种保留原生内容的OCR双层文件生成方法，其特征在于，所述对当前页面内容进行光学字符识别包括以下步骤：利用场景文字识别算法对当前页面内容进行文字检测；使用卷积神经网络模型与时序类分类网络模型结合的卷积网络进行当前页面内容的文字识别。5.根据权利要求4所述的一种保留原生内容的OCR双层文件生成方法，其特征在于，所述利用场景文字...

【专利技术属性】
技术研发人员：瞿欢，陈欣，姬辉，何鹏飞，
申请(专利权)人：南京云档信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人