一种案例推理分类器案例检索方法技术

技术编号:22166819 阅读:61 留言:0更新日期:2019-09-21 10:32
本发明专利技术公开了一种案例推理分类器案例检索方法,包括:S1,案例库规约特征选择;S2,C4.5算法与案例库分簇决策树训练;S3,加权投票KNN方法。本发明专利技术对案例推理分类器的案例检索方法进行了改进研究:提出在近邻案例检索中集成使用归纳索引策略的方法,采用信息增益比率的特征评价方法,选择信息增益率较显著的特征训练案例库分簇决策树;案例检索时,首先依据分簇决策树检索目标案例对应簇,然后在案例簇内进行近邻案例检索。开源数据集的实验数据表明:与传统的CBR模型相比,本发明专利技术改进的模型能够充分利用案例特征的分类能力进行案例检索,有效降低CBR推理分类器的计算时间复杂度,改善了推理准确性。

A Case Retrieval Method for Case Reasoning Classifier

【技术实现步骤摘要】
一种案例推理分类器案例检索方法
本专利技术具体涉及案例推理方法,具体涉及一种改进的案例推理分类器案例检索方法。
技术介绍
案例推理(Case-basedreasoning,CBR)是人工智能领域一种类比求解问题方法,它起源于从认知科学角度对人类的推理和学习机制进行的探索研究,20世纪80年代由美国耶鲁大学的认知科学和人工智能专家罗杰•沙克(RogerSehank))在动态记忆理论基础上提出,乔治亚理工学院珍妮•克洛德纳(JanelL.Kolodner)教授最早开发出应用CBR专家系统。用类比思想求解新问题(或称目标案例)的解法时,要回忆过去类似问题的经验案例(源案例)解法进行推理。因此,案例推理系统的计算模型除了要存储经验案例数据和案例解法外,还应具有获取与目标案例相似经验案例的技能。在众多CBR系统结构中,广泛被采纳的是1994年由奥莫特(Aamodt)和普拉扎(Plaza)等建立的4R模型。4R模型把CBR视作一个循环过程,这一循环过程由检索(Retrieve)、重用(Reuse)、修正(Revise)和存储(Retain)四个阶段组成,即通过检索得到一个或几个相似的源案例;然后重用相应的解决方案或者以此为基础修正案例来解决新问题;最后,存储新案例供未来的问题求解使用。经过四十多年的发展,CBR技术已在医疗诊断、故障维护、军事决策、软件成本估算、财务危机预警、交通管理等领域体现出有效应用潜力。从这些领域,可以归纳出CBR可承担的智能推理任务有:解释问题、解决问题或预测问题等。解释型CBR的推理目标是通过比较和对比已经被分类的案例,来对一个新案例进行分类,例如疾病诊断、故障维护等。在大数据环境下,以知识库(案例库)为核心的CBR系统在复杂数据环境中的决策和推理能力仍有很大发展空间。在CBR模型中,案例检索处于首位,检索策略合理与否直接影响案例推理系统的性能。常用案例检索方法主要有:近邻策略、归纳索引策略等,其中以案例间相似度为基础的近邻策略被广泛应用。近邻法采用案例特征的加权匹配来估计案例相似度,相似案例检索时间随案例库中案例个数增多而线性增长,适合于案例库较小的系统。对于规模较大的数据集,近邻案例检索策略容易造成内存不足及运算时间过长的问题。如果在分类之前,先过滤掉案例库中与目标案例相关度不高的部分样本,就可以在不影响最终分类精度的条件,使得这一问题得到解决。归纳索引法需要确定案例特征的分类能力,以构建出决策树将案例库分割成簇。决策树结构的复杂性与案例特征数量成正比。案例匹配时,自上而下遍历决策树,将目标案例特征值同决策树节点进行比较,可快速确定目标案例相似的源案例包含在树的哪个部分。两种方法都要利用案例特征确定案例相似度或构造决策树。CBR系统设计中,如果利用现有案例特征设计出的CBR分类器效果不令人满意,通常要考虑增加新特征以期区分利用现有特征容易被混淆的案例类别,以计算时间复杂度为代价,改善分类器准确性。特征扩增导致案例检索计算复杂度增加,但实验中发现,少量增加案例特征,将会改善分类器准确率,当案例特征维数增加到某一个临界点后,继续增加案例特征反而会导致(线性)分类器的分类性能变差,这种现象称为“休斯(Hughes)”现象或者“休斯”效应。为了缓解“休斯”现象,人们提出许多方法以改进CBR分类器,如李锋刚等人用基于熵的属性约简技术,设计5种方案考察2种特征选择策略对案例分类性能影响,该项研究结果表明,约简后的案例集有更好的分类性能。案例特征约简减少了案例近邻检索时的数据存储需求,提高CBR案例检索效率,却违背了CBR应用中扩展案例特征的初衷,不利于稀疏数据的检索,相应的研究成果并未考察大规模数据集上的分类性能。
技术实现思路
本专利技术的主要目的在于提供一种改进的案例推理分类器案例检索方法。本专利技术采用的技术方案是:一种案例推理分类器案例检索方法,包括:S1,案例库规约特征选择;S2,C4.5算法与案例库分簇决策树训练;S3,加权投票KNN方法。进一步地,所述步骤S1包括:采用基于信息增益比率的特征排列评估方法,按照特征排列次序,由小到大,利用过滤器算法,以逐步后向删除方向进行特征选择,采用C4.5算法进行特征分类性能评价,直至分类准确率开始下降为止;决策树规约特征选择算法流程如下:S11,以信息增益比率作为评估标准,生成FA排列次序;S12,过滤FA中信息增益比率为0的特征,生成初次选择特征集FA1;S13,调用C4.5算法,在FA1上生成训练数据集D的分类准确率A1;S14,去除FA1中信息增益比率最小的特征为特征集FA2;S15,调用C4.5算法,在FA2上生成训练数据集D的分类准确率A2;S16,如果A2>=A1,则A1=A2,FA1=FA2,转向步骤S14;S17,输出A=FA1。更进一步地,所述步骤S2包括:GWCBR分类器采用C4.5算法训练案例库分簇决策树,用案例特征的信息增益比选择决策树结点,信息增益比率的计算以熵为基础,熵表示案例库的类别纯度;若案例库S的类特征有m个取值,S的熵定义为:(2-1)其中,为类i在案例库S中出现的概率;条件熵表示在已知特征值A的条件下,案例库S的不确定性,定义为:(2-2)其中,是属性A的值域集合,是S中属性A取值为v的子集;案例特征A的信息增益指的是使用特征A划分案例库,划分前后熵的变化,用(2-3)式表示:(2-3)应用案例特征的信息增益作为决策树生成结点选择准则,存在偏袒多值特征的内在缺陷,需引入信息增益比进行校正,用(2-4)式表示:(2-4)其中,案例库S的分簇决策树训练算法如下:S21,如果S中所有实例属于同一类,则Tree为单结点树,S为该结点的划分实例簇,算法返回Tree;S22,如果S中实例数小于叶子节点最小样本数,则Tree为单结点树,S为该结点的划分实例簇,算法返回Tree;S23,如果,则Tree为单结点树,S为该结点的划分实例簇,算法返回Tree;S24,否则,计算A中各特征在S上的信息增益比;S25,选择信息增益比最大的特征;S26,决策树的根结点root=,依据特征特征值不同,将S分割为若干个非空子集;S27,对每个子树结点对应的非空子集,以A-为特征集,递归调用S21-S27,构建root的第i个子树结点;S28,返回Tree。更进一步地,所述步骤S3包括:设案例集S对应于特征空间的点,即(2-5)其中是特征向量,为案例类别特征,根据给定的特征向量距离度量方法,在案例集中找出与目标案例最邻近的K个案例,记做,在中根据多数重用规则,决定的类别y:(2-6)其中I为指示函数,KNN算法的特殊情况是k=1的情形,称为最近邻算法;对于给定案例集,K近邻法中特征向量的距离度量、K值及分类决策规则确定后,就可以确定一个目标案例所属的类;度量两个n维特征向量的案例相似程度,一般使用欧式距离,也可以是距离或Minkowski距离;设n维特征空间X,有的距离定义为()=,.当p=2时,称为欧式距离,p=1时,称为曼哈顿距离;在度量距离公式中赋予特征不同权重,在欧氏距离公式中给不同特征赋予不同权重如(2-7)式:()=,其中是第i个特征的权重;(2-7)加权投票KNN方法的算法如下:S31,首先过滤Si对应分簇决策树路径上为本文档来自技高网
...

【技术保护点】
1.一种案例推理分类器案例检索方法,其特征在于,包括:S1,案例库规约特征选择;S2,C4.5算法与案例库分簇决策树训练;S3,加权投票KNN方法。

【技术特征摘要】
1.一种案例推理分类器案例检索方法,其特征在于,包括:S1,案例库规约特征选择;S2,C4.5算法与案例库分簇决策树训练;S3,加权投票KNN方法。2.根据权利要求1所述的案例推理分类器案例检索方法,其特征在于,所述步骤S1包括:采用基于信息增益比率的特征排列评估方法,按照特征排列次序,由小到大,利用过滤器算法,以逐步后向删除方向进行特征选择,采用C4.5算法进行特征分类性能评价,直至分类准确率开始下降为止;决策树规约特征选择算法流程如下:S11,以信息增益比率作为评估标准,生成FA排列次序;S12,过滤FA中信息增益比率为0的特征,生成初次选择特征集FA1;S13,调用C4.5算法,在FA1上生成训练数据集D的分类准确率A1;S14,去除FA1中信息增益比率最小的特征为特征集FA2;S15,调用C4.5算法,在FA2上生成训练数据集D的分类准确率A2;S16,如果A2>=A1,则A1=A2,FA1=FA2,转向步骤S14;S17,输出A=FA1。3.根据权利要求1所述的案例推理分类器案例检索方法,其特征在于,所述步骤S2包括:GWCBR分类器采用C4.5算法训练案例库分簇决策树,用案例特征的信息增益比选择决策树结点,信息增益比率的计算以熵为基础,熵表示案例库的类别纯度;若案例库S的类特征有m个取值,S的熵定义为:(2-1)其中,为类i在案例库S中出现的概率;条件熵表示在已知特征值A的条件下,案例库S的不确定性,定义为:(2-2)其中,是属性A的值域集合,是S中属性A取值为v的子集;案例特征A的信息增益(Informationgain)指的是使用特征A划分案例库,划分前后熵的变化,用(2-3)式表示:(2-3)应用案例特征的信息增益作为决策树生成结点选择准则,存在偏袒多值特征的内在缺陷,需引入信息增益比进行校正,用(2-4)式表示:(2-4)其中,案例库S的分簇决策树训练算法如下:S21,如果S...

【专利技术属性】
技术研发人员:代祖华徐进李克龙王玉环李晓婷李泓毅张光辉周安伟
申请(专利权)人:西北师范大学
类型:发明
国别省市:甘肃,62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1