一种基于数据集距离评价样本集划分质量的方法技术

技术编号:24252432 阅读:291 留言:0更新日期:2020-05-23 00:01
本发明专利技术公开了一种基于数据集距离评价样本集划分质量的方法,该方法可克服常规基于误差分析有量化、难评价的缺陷,紧紧抓住训练集和测试集需相互独立且来自同一分布这一基本假设,通过对样本间距离矩阵的分解,估计样本集的均值和方差,计算训练集和测试集两个分布之间的距离。用随机抽样得到的距离分布进行概率分布估计,计算不同划分的概率,以确切的量化指标评价数据划分的质量或划分方法对特定数据的适应性。本发明专利技术在简单实用的基础上,给出样本集划分方法有效性的评价,为帮助生物医学领域的研究者选择合适的数据划分方法,明确建模方法的真实泛化性能提供适宜的方法。

A method to evaluate the quality of sample set partition based on data set distance

【技术实现步骤摘要】
一种基于数据集距离评价样本集划分质量的方法
本专利技术涉及生物医学
,特别涉及一种基于数据集距离评价样本集划分质量的方法。
技术介绍
样本划分在生物医学领域有重要的作用。其目的是产生测试集,对模型的泛化能力进行估计。模型是数据中关系的形式表达,通过模型可实现未知样本的预测。训练误差表征建模方法的学习能力,而未知样本的预测能力才是建模追求的目标。因此在进行模型训练时一般要求数据集足够大且能覆盖将来应用的范围。而在对模型的泛化能力进行估计时也要求训练集与模型训练范围保持一致,即二者满足独立同分布。然而对于实际的数据,其分布难以估计,所以常用测试集的预测性能及其与训练集预测能力的对比间接表征样本集划分的质量。但测试集预测性能的下降,并不能完全归因于训练集和测试集的分布差异,而且误差数值大小随数据集的不同呈现较大差异。所以需要建立一种能够直接表征样本集划分质量的方法,客观评价划分的质量。样本集的划分常根据实际数据的特点、分析的需求和方法的机理选择可用的方法。常用于样本集划分(数据拆分)的方法非常多,包括随机划分(RS)、Kennard-Stone(KS)法、SPXY法、DUPLEX法等。方法选择的经验性较强,且没有统一的量化指标,所以划分方法的适用性评价或者优选一般根据不同划分方法产生训练集和测试集的误差(统计量)进行,即做误差分析。因此,如何建立一种客观的质量的评价方法,可以辅助选择适宜的划分方法,是同行从业人员亟待解决的问题。
技术实现思路
鉴于上述问题,本专利技术提供一种至少解决上述部分技术问题的基于数据集距离评价样本集划分质量的方法,可以实现评价样本划分质量的目的。本专利技术实施例提供一种基于数据集距离评价样本集划分质量的方法,包括:1)根据样本划分法,将样本集划分成第一训练集和第一测试集两个独立、无交叉的样本子集;所述样本划分法不包括随机划分法;2)在再生核希尔伯特空间采用KL散度法计算所述第一训练集和第一测试集间的距离;3)采用随机划分法将所述数据集划分为第二训练集和第二测试集;4)在再生核希尔伯特空间采用KL散度法计算所述第二训练集和第二测试集间的距离;5)重复执行步骤3)和4)预设次数,得到随机划分数据集距离的概率分布;6)根据步骤5)得到的所述概率分布对步骤2)中距离的概率进行计算,计算结果P作为划分质量的评价指标;所述P越小表示样本划分KS法或SPXY法划分质量越高。进一步地,当所述步骤1)包括:1.1)设第一训练集为Tr,并置为空集,将所有样本放入候选样本集中记为Tr_cand;1.2)计算Tr_cand中样本之间的欧氏距离,将Tr_cand中欧氏距离最远的两个样本选入第一训练集Tr,并将其从Tr_cand中删除;1.3)分别计算Tr_cand中每个剩余样本与Tr中已选样本之间的距离,选择每个剩余样本与已选样本之间的距离最小值,在所有距离最小值的剩余样本中将具有最大距离的样本选入Tr中,并将其从Tr_cand中删除;1.4)重复步骤1.1)到1.3)直到Tr中样本个数达到设定的样本量为止,将剩余样本作为第一测试集Te。进一步地,所述步骤2)包括:计算第一训练集Tr和第一测试集Te中样本之间的相似度;所述相似度包括:Tr内样本相似度k(tr,tr)、Te内样本相似度k(te,te)和Tr与Te间样本相似度k(tr,te);相似度计算的核函数选用多项式核函数或径向基核函数;将所有样本相似度整理成格拉姆矩阵;计算每个相似度矩阵的权重向量及计算中心化矩阵;将格拉姆矩阵中心化,定义训练集和测试集间的距离为:式中,为样本集j在均值i和均值k上投影向量协方差的近似,i,j,k∈{1,2},1代表Tr,2代表Te;为重构格拉姆矩阵的协方差。进一步地,所述步骤3)包括:计算所述数据集中样本量K,生成最大值为K,无重复的,长度为K的随机数列;选择随机序列前n个值作为训练集的编号,从随机序列前n个值中抽提相应的样本组成训练集,剩余样本组成测试集。本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术实施例提供的一种基于数据集距离评价样本集划分质量的方法,该方法可克服常规基于误差分析有量化、难评价的缺陷,紧紧抓住训练集和测试集需相互独立且来自同一分布这一基本假设,通过对样本间距离矩阵的分解,估计样本集的均值和方差,计算训练集和测试集两个分布之间的距离。用随机抽样得到的距离分布进行概率分布估计,计算不同划分的概率,以确切的量化指标评价数据划分的质量或划分方法对特定数据的适应性。本专利技术在简单实用的基础上,给出样本集划分方法有效性的评价,为帮助生物医学领域的研究者选择合适的数据划分方法,明确建模方法的真实泛化性能提供适宜的方法。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例提供的基于数据集距离评价样本集划分质量的方法流程图;图2为本专利技术实施例提供的步骤1)的过程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。参照图1所示,本专利技术实施例提供的一种基于数据集距离评价样本集划分质量的方法,包括:1)根据样本划分法,将样本集划分成第一训练集和第一测试集两个独立、无交叉的样本子集;所述样本划分法不包括随机划分法;2)在再生核希尔伯特空间采用KL散度法计算所述第一训练集和第一测试集间的距离;3)采用随机划分法将所述数据集划分为第二训练集和第二测试集;4)在再生核希尔伯特空间采用KL散度法计算所述第二训练集和第二测试集间的距离;5)重复执行步骤3)和4)预设次数,得到随机划分数据集距离的概率分布;6)根据步骤5)得到的所述概率分布对步骤2)中距离的概率进行计算,计算结果P作为划分质量的评价指标;所述P越小表示样本划分质量越高。为避免歧义,将步骤2)和4)中的训练集和测试集,分别在其名称前增加为第一、第二以示区别。下面分别对上述各个步骤进行详细说明:其中,上述步骤1)中样本划分法,比如采用KS法、SPXY法、OS或DUPLEX等均可,参照图2所示,样本划分包括:1.1)设第一训练集为Tr,并置为空集,本文档来自技高网...

【技术保护点】
1.一种基于数据集距离评价样本集划分质量的方法,其特征在于,包括:/n1)根据样本划分法,将样本集划分成第一训练集和第一测试集两个独立、无交叉的样本子集;所述样本划分法不包括随机划分法;/n2)在再生核希尔伯特空间采用KL散度法计算所述第一训练集和第一测试集间的距离;/n3)采用随机划分法将所述数据集划分为第二训练集和第二测试集;/n4)在再生核希尔伯特空间采用KL散度法计算所述第二训练集和第二测试集间的距离;/n5)重复执行步骤3)和4)预设次数,得到随机划分数据集距离的概率分布;/n6)根据步骤5)得到的所述概率分布对步骤2)中距离的概率进行计算,计算结果P作为划分质量的评价指标;所述P越小表示样本划分质量越高。/n

【技术特征摘要】
1.一种基于数据集距离评价样本集划分质量的方法,其特征在于,包括:
1)根据样本划分法,将样本集划分成第一训练集和第一测试集两个独立、无交叉的样本子集;所述样本划分法不包括随机划分法;
2)在再生核希尔伯特空间采用KL散度法计算所述第一训练集和第一测试集间的距离;
3)采用随机划分法将所述数据集划分为第二训练集和第二测试集;
4)在再生核希尔伯特空间采用KL散度法计算所述第二训练集和第二测试集间的距离;
5)重复执行步骤3)和4)预设次数,得到随机划分数据集距离的概率分布;
6)根据步骤5)得到的所述概率分布对步骤2)中距离的概率进行计算,计算结果P作为划分质量的评价指标;所述P越小表示样本划分质量越高。


2.如权利要求1所述的一种基于数据集距离评价样本集划分质量的方法,其特征在于,所述步骤1)包括:
1.1)设第一训练集为Tr,并置为空集,将所有样本放入候选样本集中记为Tr_cand;
1.2)计算Tr_cand中样本之间的欧氏距离,将Tr_cand中欧氏距离最远的两个样本选入第一训练集Tr,并将其从Tr_cand中删除;
1.3)分别计算Tr_cand中每个剩余样本与Tr中已选样本之间的距离,选择每个剩余样本与已选样本之间的距离最小值,在所有距离最小值的剩余样本中将...

【专利技术属性】
技术研发人员:林兆洲王大仟张金霞关竹君姜迪
申请(专利权)人:首都医科大学附属北京中医医院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1