【技术实现步骤摘要】
一种基于多目标优化的原型选取方法
[0001]本专利技术属于机器学习领域,具体涉及一种基于多目标优化的原型选取方法。
技术介绍
[0002]近年来,随着计算机软件和硬件技术的发展,我们从各种各样的设备以多样的形式收集数据的能力有了显著提高。数据集的丰富,有益于机器学习任务获取和学习更多的数据特征信息,训练出高性能的模型。但是,数据实例的数量越大,存储空间需求和计算负载就会变得越高,所以这些产生的大量数据集也在挑战当前计算机数据处理的能力
[1]。另一方面,大量的数据集中存在一定的噪声、冗余或无用的实例,而噪声实例对机器学习的分类和预测任务产生的是负面影响,冗余的实例也会降低模型学习的性能
[2]。
[0003]而面对样本实例庞大的数量和数据噪声的存在,通过选取代表性的实例来减少样本数量从而降低存储空间和运算成本是最直观也是最符合需求的,训练集的减少不仅可以减少分类时间和分类器的复杂度,而且还允许我们处理内部噪声数据和简化数据描述边界
[3],从而提高分类精度。所以对于数据简约化处理,样本数量上 ...
【技术保护点】
【技术特征摘要】
1.一种基于多目标优化的原型选取方法,其特征在于,包括:S1.获取未缩减的原样本得到原样本集;原样本集需满足具有若干个类别,且每个类别带有标签;S2.确定原型选取任务的优化目标;包括MMD平方值最小化、类内分散程度最大化和远离其他类;S3.将原型选取任务建模为多目标优化模型;确定优化目标的计算公式和决策变量,将原型选取任务建模为一个具有若干变量和若干目标的多目标优化模型;S4.通过多目标优化算法对多目标优化模型进行求解得到Pareto最优解;基于步骤3所建立的多目标优化模型,设计种群初始化方案和相应的交叉、变异算子,使用多目标优化算法进行求解,完成原型选取任务;S5.合并各个类原样本集选取出来的选取样本集;对于每个类别的原样本集通过步骤S3构建多目标优化模型和步骤S4进行求解,求得每个类选取出来的最优ID集合,相应的能够通过选取样本ID确定每个类的选取样本,最终将每个类选取出来的选取样本集合并成全部选取样本集S
all
,完成原型选取任务。2.根据权利要求1所述一种基于多目标优化的原型选取方法,其特征在于,在步骤S2中,定义每个类的未缩减的原样本集为A=[a1,a2,...,an],其中n为该类原样本数量,ai为该类第i个原样本,i=1,2,...,n;定义每个类中选取出来的样本集合为选取样本集S=[s1,s2,...,sm],其中m为选取样本数量,sj为第j个选取样本,j=1,2,...,m;提前设定选取率为r,则原型选取任务是指对于每个类样本数量为n的原样本集A和选取率r,选取出样本数量为m的选取样本集S,确定选取样本集的优化目标如下:a.MMD平方值最小化;通过MMD平方值MMD2用来衡量原样本集A和选取样本集S的分布之间的差异程度;为使选取出来的选取样本集能够代表原样本集,使得原样本集A和选取样本集S之间的MMD2值最小化;b.类内分散程度最大化;用于使选取出的选取样本集尽可能的分散;c.远离其他类;使选取出来的选取样本集远离其他类别的原样本集,以区别于其他类,避免选取到噪声样本。3.根据权利要求1所述一种基于多目标优化的原型选取方法,其特征在于,步骤S3具体如下:(301)确定决策变量:对每个类中的选取样本集S的每个选取样本设置一个ID,定义选取样本集S的ID集合为X=[x1,x2,...,x
m
],x
i
∈[1,m],且x
i
的取值要求为整数;X作为多目标优化模型的决策变量;(302)定义优化目标的函数并确定计算公式;第一个目标函数为MMD2值f1(X):其中:k(y1,y2)表示两个样本y1,y2的核函数,k(y1,y2)=exp(
‑
γ||y1,y2||2),下同;第二个目标函数为类内分散程度f2(X):
第三个目标函数为选取样本集与其他类距离f3(X):最终目标函数构建为:(303)综合前述决策变量和目标函数,建模成一个寻找决策变量X使得F(X)最优的多目标优化模型,表示为:4.根据权利要求1所述一种基于多目标优化的原型选取方法,其特征在于,步骤S4具体步骤如下:(401)种群初始化;设置初始代种群大小为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。