一种电子文档识别方法及装置制造方法及图纸

技术编号：10681178 阅读：137 留言：0更新日期：2014-11-26 13:48

本发明专利技术公开了一种电子文档识别方法，用于实现文档的识别，提高文档自动分类的效率及准确率。所述方法为：根据电子文档获得各文档参数；根据所述各文档参数获得用于识别所述电子文档的各特征值；根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档；如果确定所述电子文档为单层电子文档，当所述电子文档满足第一预设条件时，确定所述单层电子文档为单层电子扫描文档；如果确定所述电子文档为双层电子文档或多层电子文档，当所述电子文档满足第二预设条件时，确定所述双层电子文档为双层电子扫描文档，或确定所述多层电子文档为多层电子扫描文档。本发明专利技术还公开了用于实现所述方法的装置。

全部详细技术资料下载

【技术实现步骤摘要】
一种电子文档识别方法及装置
本专利技术涉及计算机及图像处理领域，特别涉及一种电子文档识别方法及装置。
技术介绍
在信息化高速发展的背景下，电子文档组织的效率成为了用户浏览和查找信息时候的重要影响因素，故文档分类一直以来都是人们所关注的重点问题。如何高效地从电子文档中自动抽取信息并完成分类，已成为数字出版物制作系统的一个亟待解决的问题。且信息检索的准确率也很大程度取决于文档分类的结果。最开始的分类过程是人工完成，但随着文本文档资源的日益增多，自动化分类的需求愈专利技术显。在电子文档自动分类过程中，会遇到一种特殊的文档，即电子扫描文档，这类文档至少包含一个占页面面积较大比例的图像对象。电子扫描文档的用途十分广泛。最典型的就是用于记录一些原版的易损坏的珍贵资料，如古籍，除此之外还可以用于特定场景的重现等。未经其它处理的直接扫描文档每页可能只含有一张占页面比例较大的图像对象，这种电子文档是单层的。电子扫描文档还有经过后期处理的情况，如OCR(OpticalCharacterRecognition，光学字符识别)和手工修正，这样的电子扫描文档是多层的。根据文档内文字对象和图像对象的特点，可以将版式电子扫描文档初步预分类为层次不同的以下几种：1、单层电子扫描文档：在版式电子扫描文档中，每页中图像对象的面积占页面面积的平均比例较大。2、多层电子扫描文档(包括双层)：在版式电子文档中，每页中最大图像的面积占页面面积的平均比例较大的文档。本申请专利技术人在实现本申请实施例技术方案的过程中，至少发现现有技术中存在如下技术问题：目前已经有许多电子文档自动分类的方法，其应用于邮件...
一种电子文档识别方法及装置

【技术保护点】
一种电子文档识别方法，其特征在于，包括以下步骤：根据电子文档获得各文档参数；根据所述各文档参数获得用于识别所述电子文档的各特征值；根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档；如果确定所述电子文档为单层电子文档，当所述电子文档满足第一预设条件时，确定所述单层电子文档为单层电子扫描文档；如果确定所述电子文档为双层电子文档或多层电子文档，当所述电子文档满足第二预设条件时，确定所述双层电子文档为双层电子扫描文档，或确定所述多层电子文档为多层电子扫描文档。

【技术特征摘要】
1.一种电子文档识别方法，其特征在于，包括以下步骤：根据电子文档获得各文档参数；根据所述各文档参数获得用于识别所述电子文档的各特征值；根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档；所述特征值至少包括：在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于所述最大图像的绘制区的所有可见对象的绘制区面积占最大图像面积的平均比例T4，在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于该页中最大图像的绘制区的所有不可见对象的绘制区面积占最大图像面积的平均比例T5，每页中最大图像绘制区和文字对象绘制区的公共部分中浅色像素点占此公共部分总像素点数的平均比例T6，每页中最大图像绘制区内和非文字对象绘制区的公共部分中，浅色像素点占此部分总像素点数的平均比例T7；如果确定所述电子文档为单层电子文档，当所述电子文档满足第一预设条件时，确定所述单层电子文档为单层电子扫描文档；所述第一预设条件为T4+T5的值小于第二设定值；如果确定所述电子文档为双层电子文档或多层电子文档，当所述电子文档满足第二预设条件时，确定所述双层电子文档为双层电子扫描文档，或确定所述多层电子文档为多层电子扫描文档；所述第二预设条件为：第三设定值<T6<第四设定值，且T7≥T6。2.如权利要求1所述的方法，其特征在于，所述文档参数至少包括：所述电子文档中每页电子文档中的所有对象、每个对象的索引、每页的绘制区参数、每页中每个对象的绘制区参数。3.如权利要求2所述的方法，其特征在于，所述对象至少包括图像对象和/或文字对象，在根据电子文档获得各文档参数之后还包括步骤：根据每页中各所述图像对象的绘制区参数得到每页中占用绘制区面积最大的图像对象及其所对应的最大面积。4.如权利要求3所述的方法，其特征在于，所述特征值还包括：整个文档的页码数T1，每页所含的所述最大图像对象的面积占页面面积的平均比例T2，在整个文档中每页中绘制顺序位于该页中最大图像之前、且其绘制区真包含于所述最大图像的绘制区的所有对象的绘制区面积占最大图像面积的平均比例T3。5.如权利要求4所述的方法，其特征在于，根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档的步骤包括：判断所述T2的值是否不小于第一设定值；当判断确定所述T2的值不小于所述第一设定值时，继续判断T3的值是否小于第二设定值；如果判断确定所述T3的值小于所述第二设定值，则确定所述电子文档为所述单层电子文档或所述双层电子文档；如果判断确定所述T3的值不小于所述第二设定值，则确定所述电子文档为双层电子文档或多层电子文档。6.如权利要求5所述的方法，其特征在于，在确定所述电子文档为所述单层电子文档或所述双层电子文档之后还包括步骤：判断T4+T5的值是否小于第二设定值；当判断确定T4+T5的值小于第二设定值时，确定所述电子文档为单层电子扫描文档；当判断确定T4+T5的值不小于第二设定值时，确定所述电子文档为双层电子文档。7.如权利要求5所述的方法，其特征在于，在确定所述电子文档为双层电子文档或多层电子文档之后还包括步骤：判断T4+T5的值是否小于第二设定值；当判断确定T4+T5的值小于第二设定值时，确定所述电子文档为双层电子文档；当判断确定T4+T5的值...

【专利技术属性】
技术研发人员：冯浩然，丁力，张磊，王晓磊，
申请(专利权)人：北大方正集团有限公司，北京方正阿帕比技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人