一种基于多区域特征的电子公文分类方法技术

技术编号:12987122 阅读:128 留言:0更新日期:2016-03-09 19:11
本发明专利技术所述一种基于多区域特征的电子公文分类方法,包括以下步骤:图像预处理:图像灰度化;图像自适应滤波;图像灰度拉伸;图像最优阈值计算;图像二值化;区域特征提取:图像分块像素分布统计特征;平滑图像直方图特征;图像纹理特征;标准文档多区域特征提取及入库:标准文档图像预处理;标准文档图像关键区域选择;标准文档图像各区域特征提取;生成文档类型特征矩阵;文档类型识别:从数据库读取文档类型特征矩阵和对应的特征区域;获取被检文档图像对应特征区域图像;计算被检文档图像各特征区域特征向量;两个特征的相关系数矩阵,计算文档类型相似度。本发明专利技术可以对政府公文进行准确的分类或识别,方法操作简单,实现方便。

【技术实现步骤摘要】

本专利技术涉及,尤其针对政府公文图片的类型识别。
技术介绍
政府公文即行政公文,是公务文书的简称,是人类在治理社会、管理国家的公务实践中使用的具有法定权威和规范格式的应用文。作为表述国家意志、执行法律法规、规范行政执法、传递重要信息的最主要的载体,从某种程度上来说,公文是国家法律法规的延续和补充。其类型一般包括:决议、决定、命令(令)、公报、公告、通告、意见、通知、通报、报告、请示、批复、议案、函、纪要等。随着电子政府的不断发展,政府办公网络化、信息化、电子化的日益盛行。为了提高政府办公效率,实现政府电子公文的自动分类或识别成为亟待解决的问题。目前,国内外对电子公文的分类主要局限于电子文档的类型分类,尚未有基于图像内容特征的电子公文的分类或识别系统或方法。由于政府公文是正式的文书,有比较固定的格式和版面要求。例如:行政公文的格式要素可划分为眉首、主体、版记三部分。红色反线以上的各个要素统称眉首;红色反线(不含)以下至主题词(不含)之间的各要素统称为主体;主题词以下的各要素统称为版记。其中,版头由发文机关全称或者规范化简称加上“文件”二字或者加上带括号注明的文种名称组成,用套红大字居中印在公文首页上部。联合行文,可用主办机关名称,也可并用联署机关名称。发文字号由机关代字、年份和发文序号组成等。因此,公文的这些要素可作为公文类型识别的关键点。
技术实现思路
本专利技术克服了现有技术中的缺点,提供了,该方法可以实现对已有版式模版的电子公文的类型进行识别的能力。为了解决上述技术问题,本专利技术是通过以下技术方案实现的:,包括以下步骤:1)图像预处理(1)图像灰度化:由于获取的电子公文图像一般为彩色图像,为使处理简化,必须将彩色信息变换到灰度空间中;(2)图像自适应滤波:通过自适应中值滤波实现对拍摄的电子公文的噪声滤除;(3)图像灰度拉伸:在实际图像中,经常会出现比较大的光照不同,因此图像灰度不一致,这将导致后续处理出现较大的误差。通过对图像进行灰度拉伸,可以实现各种灰度像素分布的调整,有利于改善图像光照条件不足导致的图像灰度的偏差;(4)图像最优阈值计算:在实际图像二值化时,对不同光照的图像进行二值化后其结果图像差距常比较大。本专利技术通过迭代算法实现图像的自适应阈值计算,减少图像二值化结果受光照条件的影响,保证公文二值化后的一致性,从而保证公文识别的准确度;(5)图像二值化:将图像转化为只有黑、白两种颜色的图像;(6)图像倾斜矫正:通过hough变换检测角度在0?5°范围内的直线,实现图像倾斜矫正。2)区域特征提取(1)图像分块像素分布统计特征;(2)平滑图像直方图特征;(3)图像纹理特征;3)标准文档多区域特征提取及入库(1)标准文档图像预处理;(2)标准文档图像关键区域选择;(3)标准文档图像各区域特征提取,获得各区域特征向量;(4)生成文档类型特征矩阵;4)文档类型识别(1)从数据库读取文档类型特征矩阵和对应的特征区域;(2)获取被检文档图像对应特征区域图像;(3)计算被检文档图像各特征区域特征向量;(4)计算被检文档的特征矩阵;(5)两个特征的相关系数矩阵,计算文档类型相似度,并以此值作为判定图像是否一致的依据。进一步,所述图像二值化为:先通过对图像进行灰度拉伸和灰度平滑矫正,然后采用最优阈值方法进行图像二值化。进一步,所述图像分块像素分布统计特征为:首先,对各区域图像进一步分块;然后,分别统计每个分块中像素个数,计算其在区域图像中的占比。最后,生成分布统计直方图。进一步,所述图像平滑图像直方图特征为:首先,区域图像进行高斯平滑;然后,分别计算区域图像灰度分布直方图。进一步,所述图像纹理特征为:首先,区域图像进行高斯平滑;然后,分别计算区域图像的surf特征点和特征向量。进一步,所述标准文档多区域特征为:将文档图像的各个关键区域设为文档分类的特征提取区域,通过对各区域图像提取区域图像的统计特征。与现有技术相比,本专利技术的有益效果是:本专利技术所述,可以对政府公文进行准确的分类或识别,方法操作简单,实现方便。而且具有较广的适用性。能适用于多种流行的图像格式文件,同时支持各种彩色、灰度图等多种图像文件,可识别已入库的公文类型。本方法能适应于多种光照条件,对不同明暗及曝光条件均能良好自适应。能自动分析背景色阶范围,并有效消除背景图像对于文档分类的影响。对旋转和噪声有较好的鲁棒性,并能较好抵抗环境噪声的影响。具有较好的准确率和速度,出错率低。【附图说明】附图用来提供对本专利技术的进一步理解,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制,在附图中:图1是本专利技术的图像预处理的流程图。图2是本专利技术的区域图像特征提取流程图。图3是本专利技术的文档特征提取与特征入库流程图。图4是本专利技术的电子公文文档类型识别流程图。图5?图7是文档识别效果图。【具体实施方式】以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。图1至3是本专利技术所述的流程图。本方法的输入为待识别的电子公文图像和标准电子公文模版图像,输出文档识别的相似度结果。参阅图4。1、实施过程1)标准公文图像录入(1)读取电子公文图像。读取电子公文图像,图像类型可以为JPG、BMP或其它常见格式图像文件。(2)图像预处理化。对原始图像灰度化,图像灰度拉伸,滤波去噪,二值化,图像倾斜矫正等。(3)图像区域设置。根据电子公文的类型和特点设置特征区域。(4)提取各区域特征,计算电子公文特征矩阵。(5)将特征区域和特征矩阵存入数据库。2)被检公文类型识别(1)从数据库中分别读取每一个标准公文图像的特征区域与特征矩阵。(2)对被检公文图像的对应特征区域计算特征矩阵。(3)将文档特征矩阵进行相似度比较。(4)得到公文文档类型编号。2实施例【实施例1】如图5所示。实施例1被检图像与标准图像相同时能准确进行文档类型的识别,相似度结果为1,即被检公文图像与标准公文图像相同。【实施例2】如图6所示。实施例2中被检图像与标准图像不同时能准确进行文档类型的识别,相似度结果为0.17,即被检公文图像与标准公文图像不相同。【实施例3】如图7所示。实施例3中被检图像与标准图像不同时也能准确进行文档类型的识别,相似度结果为0.2,即被检公文图像与标准公文图像不相同。最后应说明的是:以上仅为本专利技术的优选实施例而已,并不用于限制本专利技术,尽管参照实施例对本专利技术进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但是凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。【主权项】1.,其特征在于,包括以下步骤:1)图像预处理 (1)图像灰度化; (2)图像自适应滤波; (3)图像灰度拉伸; (4)图像最优阈值计算; (5)图像二值化; (6)图像倾斜矫正; 2)区域特征提取 (1)图像分块像素分布统计特征; (2)平滑图像直方图特征; (3)图像纹理特征; 3)标准文档多区域特征提取及入库 (1)标准文档图像预处理; (2)标准文档图像关键区域选择; (3)标准文档图像各区域特征提取,获得各本文档来自技高网...

【技术保护点】
一种基于多区域特征的电子公文分类方法,其特征在于,包括以下步骤:1)图像预处理(1)图像灰度化;(2)图像自适应滤波;(3)图像灰度拉伸;(4)图像最优阈值计算;(5)图像二值化;(6)图像倾斜矫正;2)区域特征提取(1)图像分块像素分布统计特征;(2)平滑图像直方图特征;(3)图像纹理特征;3)标准文档多区域特征提取及入库(1)标准文档图像预处理;(2)标准文档图像关键区域选择;(3)标准文档图像各区域特征提取,获得各区域特征向量;(4)生成文档类型特征矩阵;4)文档类型识别(1)从数据库读取文档类型特征矩阵和对应的特征区域;(2)获取被检文档图像对应特征区域图像;(3)计算被检文档图像各特征区域特征向量;(4)计算被检文档的特征矩阵;(5)两个特征的相关系数矩阵,计算文档类型相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:王东李晓东陈俊健顾艳春
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1