一种电子文档识别方法及装置制造方法及图纸

技术编号:10681178 阅读:137 留言:0更新日期:2014-11-26 13:48
本发明专利技术公开了一种电子文档识别方法,用于实现文档的识别,提高文档自动分类的效率及准确率。所述方法为:根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。本发明专利技术还公开了用于实现所述方法的装置。

【技术实现步骤摘要】
一种电子文档识别方法及装置
本专利技术涉及计算机及图像处理领域,特别涉及一种电子文档识别方法及装置。
技术介绍
在信息化高速发展的背景下,电子文档组织的效率成为了用户浏览和查找信息时候的重要影响因素,故文档分类一直以来都是人们所关注的重点问题。如何高效地从电子文档中自动抽取信息并完成分类,已成为数字出版物制作系统的一个亟待解决的问题。且信息检索的准确率也很大程度取决于文档分类的结果。最开始的分类过程是人工完成,但随着文本文档资源的日益增多,自动化分类的需求愈专利技术显。在电子文档自动分类过程中,会遇到一种特殊的文档,即电子扫描文档,这类文档至少包含一个占页面面积较大比例的图像对象。电子扫描文档的用途十分广泛。最典型的就是用于记录一些原版的易损坏的珍贵资料,如古籍,除此之外还可以用于特定场景的重现等。未经其它处理的直接扫描文档每页可能只含有一张占页面比例较大的图像对象,这种电子文档是单层的。电子扫描文档还有经过后期处理的情况,如OCR(OpticalCharacterRecognition,光学字符识别)和手工修正,这样的电子扫描文档是多层的。根据文档内文字对象和图像对象的特点,可以将版式电子扫描文档初步预分类为层次不同的以下几种:1、单层电子扫描文档:在版式电子扫描文档中,每页中图像对象的面积占页面面积的平均比例较大。2、多层电子扫描文档(包括双层):在版式电子文档中,每页中最大图像的面积占页面面积的平均比例较大的文档。本申请专利技术人在实现本申请实施例技术方案的过程中,至少发现现有技术中存在如下技术问题:目前已经有许多电子文档自动分类的方法,其应用于邮件分类、司法意见分配、互联网以及一些其他个性化的用户服务中。分类方法以机器学习和数据挖掘为主,还涉及到文本关键词词频、综合分数计算等。但是对于电子扫描文档来说,目前只能通过计算页面图像块在整个页面中所占的比例来进行初步确识别,这种方法只能适用于单层电子扫描文档的识别,显然无法满足需求。
技术实现思路
本专利技术实施例提供一种文档识别方法及装置,用于实现文档的识别,提高文档自动分类的效率及准确率。一种电子文档识别方法,包括以下步骤:根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。一种电子文档识别装置,包括:获取模块,用于根据电子文档获得各文档参数;处理模块,用于根据所述各文档参数获得用于识别文档的各特征值;第一确定模块,用于根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档,及如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;第二确定模块,用于如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。本专利技术实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。附图说明图1为本专利技术实施例中电子文档识别装置的主要结构图;图2为本专利技术实施例中电子文档识别方法的主要流程图。具体实施方式本专利技术实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。参见图1,本专利技术实施例中的文档识别装置包括获取模块101、处理模块102、第一确定模块103和第二确定模块104。获取模块101用于根据电子文档获得各文档参数。一个电子文档可以包括多个页面。在整个电子文档中,所述文档参数至少包括:根据每页电子文档都可以直接获得的一系列的对象、每个对象的索引(Index)、整个页面的绘制区参数(例如可以是整个页面的绘制区宽度(wide)和高度(height)),对于每个对象,也可以得到其绘制区参数(例如可以是绘制区宽度和高度),其中绘制区可以是矩形。本专利技术实施例中所述对象至少可以包括图像对象和文字对象,还可以包括路径对象、底纹、渐变等。且获取模块101可以从每页的对象中筛选出图像对象,再根据每个图像对象的绘制区参数得到每页中占用绘制区面积最大的图像对象以及其所对应的最大面积,以Simage表示,且记录此最大图像对象在该页的对象流中的索引(mark)。获取模块101还可以根据每页的绘制区参数获得整个文档中每页的页面面积,以Spage表示。其中,面积计算公式为:S=wide*height。除此之外,还可得到整个文档的页码数,以T1表示。处理模块102用于根据所述各文档参数获得用于识别所述电子文档的各特征值。一、每页所含的最大图像对象的面积占页面面积的平均比例,以T2表示。计算公式如下:如果某页中不包含图像对象,则该页中Simage÷Spage的值为零。如果某页中有两个或两个以上的图像对象面积相等,且最大,则任取其中一个图像对象计算其面积即可。二、每页中绘制顺序位于该页中最大图像之前、且其绘制区真包含于所述最大图像的绘制区的所有对象,在整个文档中其绘制区面积占最大图像面积的平均比例,以T3表示。计算方法:在一页文档中,当一对象满足条件Index<mark,并且此对象的绘制区真包含于该页中最大图像对象的本文档来自技高网
...
一种电子文档识别方法及装置

【技术保护点】
一种电子文档识别方法,其特征在于,包括以下步骤:根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。

【技术特征摘要】
1.一种电子文档识别方法,其特征在于,包括以下步骤:根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;所述特征值至少包括:在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于所述最大图像的绘制区的所有可见对象的绘制区面积占最大图像面积的平均比例T4,在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于该页中最大图像的绘制区的所有不可见对象的绘制区面积占最大图像面积的平均比例T5,每页中最大图像绘制区和文字对象绘制区的公共部分中浅色像素点占此公共部分总像素点数的平均比例T6,每页中最大图像绘制区内和非文字对象绘制区的公共部分中,浅色像素点占此部分总像素点数的平均比例T7;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;所述第一预设条件为T4+T5的值小于第二设定值;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档;所述第二预设条件为:第三设定值<T6<第四设定值,且T7≥T6。2.如权利要求1所述的方法,其特征在于,所述文档参数至少包括:所述电子文档中每页电子文档中的所有对象、每个对象的索引、每页的绘制区参数、每页中每个对象的绘制区参数。3.如权利要求2所述的方法,其特征在于,所述对象至少包括图像对象和/或文字对象,在根据电子文档获得各文档参数之后还包括步骤:根据每页中各所述图像对象的绘制区参数得到每页中占用绘制区面积最大的图像对象及其所对应的最大面积。4.如权利要求3所述的方法,其特征在于,所述特征值还包括:整个文档的页码数T1,每页所含的所述最大图像对象的面积占页面面积的平均比例T2,在整个文档中每页中绘制顺序位于该页中最大图像之前、且其绘制区真包含于所述最大图像的绘制区的所有对象的绘制区面积占最大图像面积的平均比例T3。5.如权利要求4所述的方法,其特征在于,根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档的步骤包括:判断所述T2的值是否不小于第一设定值;当判断确定所述T2的值不小于所述第一设定值时,继续判断T3的值是否小于第二设定值;如果判断确定所述T3的值小于所述第二设定值,则确定所述电子文档为所述单层电子文档或所述双层电子文档;如果判断确定所述T3的值不小于所述第二设定值,则确定所述电子文档为双层电子文档或多层电子文档。6.如权利要求5所述的方法,其特征在于,在确定所述电子文档为所述单层电子文档或所述双层电子文档之后还包括步骤:判断T4+T5的值是否小于第二设定值;当判断确定T4+T5的值小于第二设定值时,确定所述电子文档为单层电子扫描文档;当判断确定T4+T5的值不小于第二设定值时,确定所述电子文档为双层电子文档。7.如权利要求5所述的方法,其特征在于,在确定所述电子文档为双层电子文档或多层电子文档之后还包括步骤:判断T4+T5的值是否小于第二设定值;当判断确定T4+T5的值小于第二设定值时,确定所述电子文档为双层电子文档;当判断确定T4+T5的值...

【专利技术属性】
技术研发人员:冯浩然丁力张磊王晓磊
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1