一种基于数字图像的植物种类识别方法技术

技术编号:7056676 阅读:463 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于数字图像的植物种类识别方法,包括:采集植物器官数字图像作为测试样本,提取特征向量;将所述特征向量输入第一级分类器,获得投票数排名前n名的n个类别,3<n<10;第一级分类器通过如下方式获得:基于全部训练样本的特征集进行分类器训练;将所述特征向量输入第二级分类器,获得识别结果;第二级分类器通过如下方式获得:从所述全部训练样本的特征集中,提取所述n个类别所对应的特征集进行分类器训练。本发明专利技术通过分级SVM分类器,有效降低了分类器对样本种类数量的敏感性,消除了样本类别增加对识别准确率的影响,克服了SVM分类器对大样本量识别准确率低的问题,进而提高植物识别的准确率。

【技术实现步骤摘要】

本专利技术涉及图像识别技术,特别是涉及。
技术介绍
植物分类学是植物科学体系的基础学科,在农业、林业以及其他相关产业中起着重要的作用。植物分类学依据植物的多种外观性状特征对其进行鉴别和分类。对于这些性状特征的获得,在传统的方式中往往采用人工实地测量的方式进行作业。根据获得的数据对植物进行鉴别,确定其所属类别。整个工作过程不但耗费较多的人力物力,而且对工作人员的专业知识和经验提出很高的要求。随着信息技术和自动识别理论的发展,数字图像采集设备(如数码相机)的逐渐普及,人们可以很方便地采集植物的数字图像,从而精确地获得其外观特征信息,然后运用数字图像处理技术和模式识别技术对采集到的样本做识别分析,从而使植物分类的自动化程度大大提高。并且通过计算机进行分类识别,使得植物分类的效率和准确率有了显著提高。花卉品种分类学是植物分类学的一个分支,目前的花卉品种分类,一般是通过计算机对花卉的数字图像进行分析得到分类结果,采用的一般为模式识别系统,模式识别系统通常由多个环节组成,一般来说包括信息采集、数据处理、特征提取和选择、分类识别或者类型匹配。模式识别系统的设计的关键之处在于选取适当的模式定义、有代表性的样本集、和样本隶属度较高的特征以及有效的分类器等。而其中,分类器技术决定了系统对样本空间的分类能力的好坏,影响了模式识别系统的最终性能。现有的分类器技术包括相似性度量方法、贝叶斯决策方法、线性判别函数、人工神经网络以及支持向量机等,以下分别具体介绍如下(一 )相似性度量相似性度量方法分析样本的特征向量在特征空间中的距离,根据其与特定类别在样本空间中的位置的接近程度对其进行分类。相似性度量方法具有算法简单直观易懂,计算速度快的优点。但是该方法仅仅考虑两个特征向量之间的距离,没有分析一个类别在特征空间中的整体分布情况,不能够解决复杂的分类问题。(二)贝叶斯决策理论贝叶斯决策理论方法属于统计模式识别理论,统计决策理论是模式分类理论中最基本的理论之一,对模式分析和分类器的设计有着实际的指导意义。使用此贝叶斯决策理论构造分类器时,要求各类别总体的分布概率已知,且决策分类的类别数是有限的。因此,贝叶斯决策的结果取决于是先验知识,先验概率在决策过程中起了主导作用。但是在实际应用中,先验概率和类条件概率密度的正确估计往往比较复杂,而且对于类别数并非已知的情况下,贝叶斯决策也无法计算。(三)人工神经网络上世纪50年代末,提出了感知机的数学模型来对人脑的功能进行简化模拟,初步形成了人工神经网络的理论基础。人工神经网络模拟人脑的结构和功能,由大量的彼此广泛相连的处理单元组成, 每个处理单元的结构和功能十分简单,取得了令人惊异的效果。在神经网络方法中,采用反向传播法(BP)的多层感知器的应用最为广泛和成功。该方法直接从训练样本数据中学习, 并利用非线性规划的最快下降法使权值收敛,具有简便有效的优点。模式识别的神经网络分类器与其他方法相比具有以下几个明显的优势具有较强的容错性,能够识别带有噪声或变形的输入模式;具有很强的自适应学习能力;并行分布式信息存储与处理,识别速度快;能把识别处理和若干预处理融为一体进行。但是,人工神经网络算法根据不同的神经元模型和网络拓扑结构及学习方法,具有不同的特性和能力。这需要根据样本的情况调整其学习方式,以取得更好的效果。因此这也使得神经网络方法的效果对于使用者的经验过于依赖,使用起来过于复杂,这对于初次接触神经网络分类器的用户来说很难取得最优效果。(四)支持向量机(SVM)介绍支持向量机的理论基础是统计学习理论,是统计学习理论的最新成果和新一代的机器学习方法。机器学习研究计算机模拟人的学习行为,根据已有的训练样本推测系统的判别法则,对新输入样本作出尽可能真实的预测。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。以下对支持向量机进行详细介绍。1)支持向量机有两个主要的理论基础支持向量机在统计学习理论的基础之上发展而来,算法的主要思想是对于输入的线性不可分的样本,通过将其特征空间变换到更高维数的空间,使其线性可分,然后再计算最优线性分类面。这种变换是通过内积函数实现的非线性变换。支持向量机有两个主要的理论基础(1. 1)结构风险最小化原理;(1. 2) VC维理论。(1. 1)结构风险最小化原理通过对不同类型的函数集进行系统的研究,统计学习理论总结了函数集的经验风险和实际风险之间的关系。其中,对于二分类问题的函数集,经验风险RMp(a)和实际风险 R( α)之间满足如下关系的概率大于或等于I-Il M(a)<ReJa)+M1 tjJ其中,h是函数的VC维,η是样本数。从中可以看出,机器学习的实际风险R(Ci)包括两个组成部分,即经验风险 Remp(a)和由VC维数决定的置信风险。传统的训练方式通过选择不同的算法模型来影响置信风险的范围大小,当模型与样本契合度较高时就能得到较好的识别结果。但由于算法的选择取决于训练样本的情况等先验知识和已有的使用经验,而没有建立系统的理论化方法,使得算法的使用效果依赖于使用者的经验和技巧,推广性较差。SRM(结构风险最小化, Structural Risk Minimization)准则在按照VC维数大小进行排序的函数子集序列中寻找最小经验风险,综合考虑经验风险和置信风险,有效的解决了这个问题。与传统方法相比, SRM准则更加科学。在此基础上,发展出了支持向量机。(L2)VC 维理论VC维是统计学习理论所定义的最重要的函数集学习性能指标之一。VC维的定义是对于一个由h个点组成的点集,如果将其分为两类,则有2h种分法。如果有函数集Q(z, α), α e Λ,能够将点集用所有可能的2h种分法进行划分,则称此点集能够被此函数集破开或打散。一个函数集的VC维,指能够被该函数集打散的点集所包含的最大的样本点个数。下面举例说明如果函数集Q(z,α) α e A是平面内所有直线的集合,那么所有两点集合都是可以被打散的,大部分三点集合也可以被打散(如附图说明图1所示),但是四点集合不能够被打散,因此其VC维为3。一般的,在r维欧式空间中的线性函数集(即超平面集)的 VC维为r+1。2)支持向量机分类原理支持向量机是统计模式识别理论最新的部分,并得到了广泛的应用。支持向量机可以看做是一种广义线性分类器,其理论基础包括线性分类方法、结构风险最小化原则、最优核函数等。支持向量机最初设计为二分类问题的学习机器,其分类过程可以描述为寻找分类超平面,将样本空间中的两组样本点分开,并且所选分类超平面与样本点的距离应该最远。对于线性不可分的样本分布,使用核函数将特征空间向高维空间映射,使线性不可分问题变为线性可分问题。支持向量机正是基于这种思想,将特征空间向高维空间映射,然后构造最优分类超平面将样本分类。(a)线性可分情况从线性可分两类问题分析,此类问题的主要问题是找出最优分类超平面,也称为最优线性判别函数。先给出训练样本集Ixi, i = 1,…,η},令该样本集中的样本分为两类 (^和ω2,并分别标记为yi = +l或-1。则线性判别函数为g (x) = wTx+w0(2-14)式中w被称为权向量,W0被称为阈权值。当方程g(x) = 0本文档来自技高网...

【技术保护点】
1.一种基于数字图像的植物种类识别方法,其特征在于,包括:步骤一,采集植物器官数字图像作为测试样本,提取所述测试样本的特征向量;步骤二,将所述特征向量输入第一级分类器,获得投票数排名前n名的n个类别,3<n<10;所述第一级分类器通过如下方式获得:基于全部训练样本的特征集进行分类器训练,获得基于支持向量机的所述第一级分类器;步骤三,将所述特征向量输入第二级分类器,获得识别结果;所述第二级分类器通过如下方式获得:从所述全部训练样本的特征集中,提取所述n个类别所对应的特征集进行分类器训练,获得基于支持向量机的所述第二级分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:曹卫群裴勇
申请(专利权)人:北京林业大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1