一种分类识别模型构建方法技术

技术编号:26420075 阅读:21 留言:0更新日期:2020-11-20 14:15
本发明专利技术提供一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,包括如下步骤:S1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的,所述源域模型包括多个个体分类器;S2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;S3、基于每个分类器对应的特征信息增益评估指标采用预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。本发明专利技术综合考虑了当前源域模型对目标域数据的分割准确度,及当前源域模型是否覆盖目标域中具有重要参考价值的属性特征,能够适应于样本数量小、标注困难的医疗诊断场景。

【技术实现步骤摘要】
一种分类识别模型构建方法
本专利技术涉及机器模型迁移学习领域,具体来说涉及分类识别模型的迁移学习,更具体地说,涉及一种用于小样本目标域的分类识别模型构建方法。
技术介绍
随着机器学习技术的成熟度越来越高,机器模型被越来越广泛的应用在各个领域,尤其是分类识别相关方面体现出了优秀的分类识别准确率。但是对于一些特殊的场景中,由于小样本问题,难以构建适应度高和分类准确度高的评估模型,特别是在一些样本取样困难的领域,像老年医疗、智能看护等。例如,老年痴呆的最显著症状特征为认知功能衰退,是老年人群中最常见的神经退行性疾病,如何有效的识别老年痴呆的前期症状对于老年痴呆的预防具有重要意义。根据世界卫生组织(WorldHealthOrganization,WHO)2019年的最新统计数据,全球约有5000万人患有痴呆症状,60岁以上老年人群中,老年痴呆的发生率约在5%至8%之间,每年将出现大约一千万老年痴呆新增病例。痴呆这类病理性认知功能衰退是老年人致残和丧失基本生活能力的主要原因,给其看护者、家庭和社会带来沉重的照料和经济负担。2015年,全球范围内,老年痴呆造成的经济负担约为8180亿美元,相当于全球经济生产总值的1.1%。为应对老年人群认知能力衰退带来的挑战,许多研究者致力于通过步态分析和手势识别等人类日常行为来评估认知功能状态。然而,已有的研究往往受限于小样本问题的影响,难以实现高精准的认知能力评估模型构建。其中,造成小样本问题的原因有三个方面:首先,数据收集过程中,难以招募大量认知功能衰退的老年人;其次,医疗数据标记耗时且较为复杂,需要较强的专家医疗知识;最后,数据收集往往需要支付被试者被试费用,且收集设备的购买和维护费用一般较高。该问题不仅存在于老年人认知功能评估的场景,其他存在小样本数据问题的场景同样存在高精准模型构建困难以致于标注困难的问题。因此,如何根据已有的小样本构建高精准的识别评估模型实现有效标注是一个突出的难点。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种新构建分类识别模型的方法。本专利技术的一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,包括如下步骤:S1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的,所述源域模型包括多个个体分类器;S2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;S3、基于每个分类器对应的特征信息增益评估指标采用预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。优选的,所述集成模型为随机森林模型,所述随机森林模型包含多个决策树,每个决策树为一个个体分类器。所述步骤S3包括:基于每个决策树对应的特征信息增益评估指标采用不同的调整策略对每个决策树进行重构,所有重构后的决策树组成目标域分类识别模型;其中,特征信息增益评估指标小于第一阈值的决策树,采用目标域数据集重构决策树策略对该决策树进行重构;特征信息增益评估指标大于等于第一阈值且小于第二阈值的决策树,采用修改子树策略对该决策树进行重构;特征信息增益评估指标大于等于第二阈值且小于第三阈值的决策树,采用分割叶子节点策略对该决策树进行重构;特征信息增益评估指标大于等于第三阈值的决策树,采用更新属性阈值策略对该决策树进行重构。优选的,所述第一阈值、第二阈值、第三阈值是通过网格搜索方法确定的最优阈值参数,且第一阈值小于第二阈值,第二阈值小于第三阈值。在本专利技术的一些实施例中,每个决策树的特征信息增益评估指标通过如下方式确定:其中,hj表示第j颗决策树,Aj表示构造决策树hj的特征集合,表示源域数据集,表示特征a对应的信息增益在源域数据集上的所有特征的信息增益集合中的排序,表示目标域数据集,表示特征a对应的信息增益在目标域数据集上的所有特征的信息增益集合中的排序,sgn(x)是符号函数,λ是权重系数,表示目标域数据集中的第i个样本,表示第i个样本的属性,表示第i个样本的标签,nT表示目标域数据集的数据个数。其中,所述用目标域数据集会重构决策树策略是以目标域数据集作为待重构决策树的输入采用递归学习的方式学习获得最优的决策树结构。所述修改子树策略是对待重构决策树中相对于到达该节点的有标签样数据集的分布差异小于分布差异阈值的节点为根节点的子树进行重建。优选的,所述分布差异通过如下方式确定:其中,DI表示当前节点相对于到达该节点的目标域数据集中的有标签样本数据集的分布差异,当前节点将到达该节点的目标域数据集中的有标签样本数据集分割为左子集P和右子集Q,M=(P+Q)/2,dm是决策树的最大深度,dc是当前结点的当前深度,目标域的标签域。所述分布差异阈值是通过网格搜索方法确定的最优阈值参数。所述分割叶子节点策略是指将待重构决策树中相对于目标域数据集不纯的叶子节点重新训练将其进一步分割以扩展决策树。其中,所述相对于目标域数据集不纯的叶子节点是到达该节点的目标域数据集中的有标签样本数据集的大小大于2且该数据集中至少包含两种不同的样本。决策树中每个节点为一个分割属性,且每个分割属性对应一个分割属性阈值,所述更新属性阈值策略是采用某节点相对于目标域数据集中的信息增益更新决策树中该节点对应的分割属性阈值。与现有技术相比,本专利技术的优点在于:本专利技术综合考虑了当前源域模型对目标域数据的分割准确度,及当前源域模型是否覆盖目标域中具有重要参考价值的属性特征。最终通过定义统一评估准则,对所有个体分类器进行量化评估。根据量化评估结果,制定了不同的个体分类器模型迁移方法,包括修改子树、分割叶子结点和更新属性阈值等,不同生长机制适应于不同适应度的个体分类器,均可实现源域与目标域数据的适配,实现了源域与目标域之间的有效迁移,能够适应于样本数量小、标注困难的医疗诊断场景。附图说明以下参照附图对本专利技术实施例作进一步说明,其中:图1为根据本专利技术实施例的分类识别模型构建方法流程示意图;图2为根据本专利技术实施例的源域到目标域上的特征相关性示意图;图3为根据本专利技术实施例的实验示例示意图。具体实施方式为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如
技术介绍
所述,在很多比较特别的领域其数据样本(例如医疗数据)收集困难,导致数据集中数据样本非常少,难以据此训练出合适的认知评估模型。专利技术人通过研究迁移学习技术,获得了解决数据小样本和标注困难等问题的新思路。尽管迁移学习在计算机视觉领域取得了较好的成果,但是对于其他领域,尤其是数据小样本特点比较突出的医疗数据领域,迁移学习的研究还比较匮乏,这类领域的数据集不同于计算机视觉领域的数据集,该类领域的数据集往往较小,通常只包含十余个受试者,在如此小的样本集合中,难以使用计算机视觉领域使用的梯度下降算法优化深度神经网络模型以获得评估模型,本文档来自技高网
...

【技术保护点】
1.一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,其特征在于,包括:/nS1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的,所述源域模型包括多个个体分类器;/nS2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;/nS3、基于每个分类器对应的特征信息增益评估指标采用预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。/n

【技术特征摘要】
1.一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,其特征在于,包括:
S1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的,所述源域模型包括多个个体分类器;
S2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;
S3、基于每个分类器对应的特征信息增益评估指标采用预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。


2.根据权利要求1所述的一种分类识别模型构建方法,其特征在于,
所述集成模型为随机森林模型,所述随机森林模型包含多个决策树,每个决策树为一个个体分类器;
步骤S3包括:基于每个决策树对应的特征信息增益评估指标采用不同的调整策略对每个决策树进行重构,所有重构后的决策树组成目标域分类识别模型;
其中,特征信息增益评估指标小于第一阈值的决策树,采用目标域数据集重构决策树策略对该决策树进行重构;特征信息增益评估指标大于等于第一阈值且小于第二阈值的决策树,采用修改子树策略对该决策树进行重构;特征信息增益评估指标大于等于第二阈值且小于第三阈值的决策树,采用分割叶子节点策略对该决策树进行重构;特征信息增益评估指标大于等于第三阈值的决策树,采用更新属性阈值策略对该决策树进行重构。


3.根据权利要求2所述的一种分类识别模型构建方法,其特征在于,所述第一阈值、第二阈值、第三阈值是通过网格搜索方法确定的最优阈值参数,且第一阈值小于第二阈值,第二阈值小于第三阈值。


4.根据权利要求2-3之一所述的一种分类识别模型构建方法,其特征在于,
每个决策树的特征信息增益评估指标通过如下方式确定:



其中,hj表示第j颗决策树,Aj表示构造决策树hj的特征集合,表示源域数据集,表示特征a对应的信息增益在源域数据集上的所有特征的信息增益集合中的排序,表示目标域数据集,表示特征a对应的信息增益在目标域数据集上的所有特征的信息增益集合中的排序,sgn(x)是符号函数,λ是权重系数,表示目标域数据集中的第i个样本,表示第i个样本的属性,表示第i个样本的标签,nT表示目标域数据集的数据个数。


5.根据权利要求4所述的一种分类识别模型构建方法...

【专利技术属性】
技术研发人员:陈益强张迎伟于汉超吕泽平杨威文李青杨晓东
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1