一种纸质文档图文信息采集与压缩的方法和系统技术方案

技术编号:4197364 阅读:204 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种纸质文档图文信息采集与压缩的方法和系统包括:扫描模块,用于将纸质文档扫描为电子文档;格式压缩模块,用于将图像格式的电子文档转换为二值电子文档格式。本发明专利技术方案方便分散的服务机构能在有限网络带宽的环境下能迅速地将制作的电子档案文件上传至电子档案库,并在查询浏览时能快速地下载至本地浏览,并且还要能提供将电子档案转换成高压缩比的格式的功能,从而方便电子文档的制作、传输。

【技术实现步骤摘要】

本专利技术涉及图文信息釆集与压缩技术,特别是指一种纸质文档图 文信息釆集与压缩的方法和系统。
技术介绍
奥运会等大型活动服务机构的电子档案库不仅包括组织机构代码的 文本信息,同时还配套有批准文件、许可证、法人身份证、营业执照、 登记证等影印文件,这些文件是进一步识别和比对企事业单位身份的重 要依据。通过纸质文件扫描、软件压缩可以将这些文件合并到电子档案 库,为使用方提供更详尽的信息支持。奥运等大型活动的服务机构比较多,而且分散在不同的地方。为了 集中收集这些档案,需要为每一个服务机构能提供一个搜集、制作电子 档案文件的软件。同时扫描的文件一般都比较大,在现有的网络带宽环 境下传输会比较慢。
技术实现思路
有鉴于此,本专利技术提出一种纸质文档图文信息采集与压缩的方法 和系统,使电子文档的制作、传输更加方便。基于上述目的本专利技术提供的一种纸质文档图文信息采集与压缩的方法,包括扫描文档并将扫描得到的电子文档保存为图像格式;将图像格式的电子文档转换为专用图像文件格式。可选的,该方法所述专用图像文件格式为二值电子文档格式。可选的,该方法所述专用图像文件格式还包括灰度格式、彩色格 式中的一种或多种。可选的,该方法所述二值电子文档格式包括文件头数据块、文件 背景信息数据块、文件安全访问控制数据块、文件尾数据块、目录信息 数据块、页面索引数据块、页面图像数据块、附件数据块、页面附件元 素描述数据块、文件元数据块。可选的,该方法所述文件安全访问控制数据块包括文件标识、加 密方式、解密密码、文件校验码、用户权限;所述目录信息数据块包括目录节点、目录节点对应的页码;所述页索引数据块包括页面总数、页ID、页面类型、页顺序 码、页码、页数据偏移量。可选的,该方法所述将图像格式的电子文档转换为二值电子文档格式还包括对转换后的文件进行加密。可选的,该方法所述加密过程是按照字符排序进行混排加密。 可选的,该方法还包括转换后二值电子文档格式的电子文档解压流量的过程调用FreeFileBlocks,在内存中按照文件结构申请一个文件列表块 大小的内存空间,将这部分内存中释^t;获得待处理文件的大小,申请同等大小的内存,将整个文件读入内 存中,关闭该文件;申请相应数据块对象,按照文件结构从内存中读取相应的数据块对象;按照文件存储结构从内存中读取相应的数据块对象; 将读取的数据块加入块列表; 调用数据块对象的块碰到虚函数;根据文件安全访问控制数据块结构,查找安全控制数据块解密; 定位页面索引数据块,定位页面数据数据块,绑定这两个数据块, 得到加密数据块个数;为每个加密数据块解密。可选的,该方法所述扫描文档并将扫描得到的电子文档保存为图像 格式还包括对图像格式电子文档调整为统一样式的版面。基于上述目的,本专利技术还提供了一种纸质文档图文信息釆集与压缩的系统,包括扫描模块,用于将纸质文档扫描为电子文档;格式压缩模块,用于将图像格式的电子文档转换为专用图像文件格式。可选的,该系统所述专用图像文件格式为二值电子文档格式。可选的,该系统所述专用图像文件格式还包括灰度格式、彩色格 式中的一种或多种。可选的,该系统所述二值电子文档格式包括文件头数据块、文件 背景信息数据块、文件安全访问控制数据块、文件尾数据块、目录信息 数据块、页面索引数据块、页面图像数据块、附件数据块、页面附件元 素描述数据块、文件元数据块。可选的,该系统所述文件安全访问控制数据块包括文件标识、加 密方式、解密密码、文件校验码、用户权限;所述目录信息数据块包括目录节点、目录节点对应的页码;所述页索引数据块包括页面总数、页ID、页面类型、页顺序 码、页码、页数据偏移量。可选的,该系统所述格式压缩模块还用于对转换后的文件进行加密。可选的,该系统所述加密是按照字符排序进行混排加密。可选的,该系统还包括解压浏览模块,其中包括用于调用 FreeFileBlocks,在内存中按照文件结构申请一个文件列表块大小的内 存空间,将这部分内存中释放的子模块;获得待处理文件的大小,申请同等大小的内存,将整个文件读入内 存中,关闭该文件的子模块;申请相应数据块对象,按照文件结构从内存中读取相应的数据块对象的子模块;按照文件存储结构从内存中读取相应的数据块对象的子模块; 将读取的数据块加入块列表的子模块;调用数据块对象的块碰到虚函数的子模块;根据文件安全访问控制数据块结构,查找安全控制数据块解密的子模块;定位页面索引数据块,定位页面数据数据块,绑定这两个数据块,得到加密数据块个数的子模块;为每个加密数据块解密的子模块。可选的,该系统还包括图像处理模块,对图像格式电子文档调 整为统一样式的版面。从上面所述可以看出,本专利技术提供的纸质文档图文信息釆集与压 缩的方法和系统。方便分散的服务机构能在有限网络带宽的环境下能 迅速地将制作的电子档案文件上传至电子档案库,并在查询浏览时能快 速地下栽至本地浏览,并且还要能提供将电子档案转换成高压缩比的格 式的功能,从而方便电子文档的制作、传输。服务机构利用此模块,可以将其纸质的文件扫描形成电子档案,同 时利用此模块将扫描形成的电子档案进行高压缩比的压缩,形成一个高 压缩比的电子档案格式。附图说明图1为本专利技术实施例纸质文档图文信息采集与压缩系统的结构框图2为本专利技术实施例专用图像文件格式示意图; 图3为本专利技术实施例解压浏览流程示意图4为本专利技术实施例纸质文档图文信息采集与压缩方法的总体流 程示意图。 —具体实施例方式下面参照附图对本专利技术进行更全面的描述,其中说明本专利技术的示例 性实施例。参见图1所示,本专利技术实施例提供的纸质文档图文信息采集与压缩系统,主要包括扫描模块、图像处理模块、格式压缩模块。在图文 信息浏览端包括解压浏览模块。在一个根据本专利技术图文信息采集与压缩 的终端设备上,为便于对采集、压缩结果进行检查、浏览, 一般同时会 集成所述的解压浏览^^莫块。参见图4所示,基于该纸质文档图文信息采集与压缩系统,本发 明纸质文档图文信息釆集与压缩的方法总体流程包括步骤401,扫描模块将扫描的纸质文件,保存为tiff、 jpg等图像 文件格式。步骤402,图像处理模块对保存的图像文件进行调整。步骤403,格式压缩模块将处理后的图像文件转换为专用图像文 件格式,比如灰度、彩色、或专用二值电子文档格式,并对转换后 的文件进行加密。步骤403中,所述加密就在转换过程中进行,加密时候是按照字 符排序进行混排加密。因为转换成专用二值电子文档格式,必须采用 基于本专利技术方法的专用浏览器才能打开。本专利技术中的图像压缩根据不同的图像(二值、灰度、彩色)采取不 同的压缩算法。 一般情况下,可默认采用在先申请的二值图像压缩数据 编码技术,该技术能够大幅提高图像文件的压缩比并且进行快速还原。 二值图像压缩部分采用模式识别加上特殊的图像压缩编码,使图像的损 失降到最低,并且这个损失是不会递归发生的(即反复的打开和保存不 会递归发生图像有损的情况),灰度和彩色图像压缩釆用小波变换算法 进行压缩,在保证图像质量的前提下尽可能的减小图像的文件大小。特有二值多色图像压缩技术是在图像数据分析和压缩的同时进行颜 色提取和分析,最终准确的分离红(或蓝)章和红头的信息。分离出来 的信息进行特殊的编码处理。最终实现保留红蓝双色效果的二值图像压本文档来自技高网...

【技术保护点】
一种纸质文档图文信息采集与压缩的方法,其特征在于,包括: 扫描文档并将扫描得到的电子文档保存为图像格式; 将图像格式的电子文档转换为二值电子文档格式。

【技术特征摘要】
1.一种纸质文档图文信息采集与压缩的方法,其特征在于,包括扫描文档并将扫描得到的电子文档保存为图像格式;将图像格式的电子文档转换为二值电子文档格式。2. 根据权利要求l所述的方法,其特征在于,所述二值电子文档格 式包括文件头数据块、文件背景信息数据块、文件安全访问控制数据 块、文件尾数据块、目录信息数据块、页面索引数据块、页面图像数据 块、附件数据块、页面附件元素描述数据块、文件元数据块。3. 根据权利要求2所述的方法,其特征在于,所述文件安全访问控 制数据块包括文件标识、加密方式、解密密码、文件校验码、用户权 限;所述目录信息数据块包括目录节点、目录节点对应的页码; 所述页索引数据块包括页面总数、页ID、页面类型、页顺序 码、页码、页数据偏移量。4. 根据权利要求l至3任意一项所述的方法,其特征在于,所述将 图像格式的电子文档转换为二值电子文档格式还包括对转换后的文件 进行加密。5. 根据权利要求4所述的方法,其特征在于,所述加密过程是按照 字符排序进行混排加密。6. 根据权利要求4所述的方法,其特征在于,还包括转换后二值电 子文档格式的电子文档解压流量的过程调用FreeFileBlocks,在内存中按照文件结构申请一个文件列表块 大小的内存空间,将这部分内存中释^t;获得待处理文件的大小,申请同等大小的内存,将整个文件读入内 存中,关闭该文件;申请相应数据块对象,按照文件结构从内存中读取相应的数据块对象;按照文件存储结构从内存中读取相应的数据块对象;将读取的数据块加入块列表; 调用数据块对象的块碰到虚函数;根据文件安全访问控制数据块结构,查找安全控制数据块解密; 定位页面索引数据块,定位页面数据数据块,绑定这两个数据块, 得到加密数据块个数;为每个加密数据块解密。7. 根据权利要求l所述的方法,其特征在于,所述扫描文档并将扫 描得到的电子文档保存为图像格式还包括对图像格式电子文档调整为 统一样式的版面。8. 根据权利要求l所述的方法,其特征在于,所述电子文档转换成 的格式还包括灰度格...

【专利技术属性】
技术研发人员:刘为为胡锦龙
申请(专利权)人:全国组织机构代码管理中心
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1