【技术实现步骤摘要】
本专利技术涉及一种识别方法,尤其是涉及一种基于SVM的文档图像版式信息识别方法。
技术介绍
随着OCR (Optical Character Recognition,光学字符识别)技术的发展与应用,版面分析作为OCR处理的关键步骤受到越来越多的重视。版面分析实际上是特定的图像理解问题,其研究内容涉及图像处理、人工智能、模式识别等多学科的交叉领域。版面分析技术从初期对布局结构较简单的文本文档页面进行分割的研究,到对文档内部对象进行逻辑标识的研究开始逐步发展。目前,版面分析的研究已发展到针对各个不同应用领域的文档采用不同的技术,多角度的科学研究,并解决实际问题。传统的版面分析算法主要有以下几类自顶向下、自底向上、混合法。自顶向下的方法重视图像的全局信息,从整个图像入手,将图像递归分割成足够小的区域,最后得到图像的几何结构,是一个分解的过程。自底向上的方法重视图像的局部信息,从图像细节入手,将图像中具有相同属性的小区域逐步合并成较大区域,是一个合并的过程。将自顶向下和自底向上两种方法结合起来使用也就是混合法。近年来,模式识别和机器学习中的许多方法被运用到了文档分类中。 ...
【技术保护点】
一种基于SVM的文档图像版式信息识别方法,其特征在于,包括以下步骤:1)获取文档图像样本,并对文档图像样本进行预处理;2)对预处理后的文档图像样本进行特征提取,获得特征向量;3)根据特征向量构造用于SVM训练的特征空间,并对SVM分类器进行训练;4)获取待识别文档图像,利用训练后的SVM分类器对待识别文档图像进行版式识别。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。