【技术实现步骤摘要】
一种基于数据集距离评价样本集划分质量的方法
本专利技术涉及生物医学
,特别涉及一种基于数据集距离评价样本集划分质量的方法。
技术介绍
样本划分在生物医学领域有重要的作用。其目的是产生测试集,对模型的泛化能力进行估计。模型是数据中关系的形式表达,通过模型可实现未知样本的预测。训练误差表征建模方法的学习能力,而未知样本的预测能力才是建模追求的目标。因此在进行模型训练时一般要求数据集足够大且能覆盖将来应用的范围。而在对模型的泛化能力进行估计时也要求训练集与模型训练范围保持一致,即二者满足独立同分布。然而对于实际的数据,其分布难以估计,所以常用测试集的预测性能及其与训练集预测能力的对比间接表征样本集划分的质量。但测试集预测性能的下降,并不能完全归因于训练集和测试集的分布差异,而且误差数值大小随数据集的不同呈现较大差异。所以需要建立一种能够直接表征样本集划分质量的方法,客观评价划分的质量。样本集的划分常根据实际数据的特点、分析的需求和方法的机理选择可用的方法。常用于样本集划分(数据拆分)的方法非常多,包括随机划分(RS) ...
【技术保护点】
1.一种基于数据集距离评价样本集划分质量的方法,其特征在于,包括:/n1)根据样本划分法,将样本集划分成第一训练集和第一测试集两个独立、无交叉的样本子集;所述样本划分法不包括随机划分法;/n2)在再生核希尔伯特空间采用KL散度法计算所述第一训练集和第一测试集间的距离;/n3)采用随机划分法将所述数据集划分为第二训练集和第二测试集;/n4)在再生核希尔伯特空间采用KL散度法计算所述第二训练集和第二测试集间的距离;/n5)重复执行步骤3)和4)预设次数,得到随机划分数据集距离的概率分布;/n6)根据步骤5)得到的所述概率分布对步骤2)中距离的概率进行计算,计算结果P作为划分质量 ...
【技术特征摘要】
1.一种基于数据集距离评价样本集划分质量的方法,其特征在于,包括:
1)根据样本划分法,将样本集划分成第一训练集和第一测试集两个独立、无交叉的样本子集;所述样本划分法不包括随机划分法;
2)在再生核希尔伯特空间采用KL散度法计算所述第一训练集和第一测试集间的距离;
3)采用随机划分法将所述数据集划分为第二训练集和第二测试集;
4)在再生核希尔伯特空间采用KL散度法计算所述第二训练集和第二测试集间的距离;
5)重复执行步骤3)和4)预设次数,得到随机划分数据集距离的概率分布;
6)根据步骤5)得到的所述概率分布对步骤2)中距离的概率进行计算,计算结果P作为划分质量的评价指标;所述P越小表示样本划分质量越高。
2.如权利要求1所述的一种基于数据集距离评价样本集划分质量的方法,其特征在于,所述步骤1)包括:
1.1)设第一训练集为Tr,并置为空集,将所有样本放入候选样本集中记为Tr_cand;
1.2)计算Tr_cand中样本之间的欧氏距离,将Tr_cand中欧氏距离最远的两个样本选入第一训练集Tr,并将其从Tr_cand中删除;
1.3)分别计算Tr_cand中每个剩余样本与Tr中已选样本之间的距离,选择每个剩余样本与已选样本之间的距离最小值,在所有距离最小值的剩余样本中将...
【专利技术属性】
技术研发人员:林兆洲,王大仟,张金霞,关竹君,姜迪,
申请(专利权)人:首都医科大学附属北京中医医院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。