一种基于核函数的特征选择方法及装置制造方法及图纸

技术编号:34693640 阅读:13 留言:0更新日期:2022-08-27 16:28
本发明专利技术公开了一种基于核函数的特征选择方法及装置,方法包括:对第一数据集进行转置处理,得到第二数据集;基于所述第二数据集诱导出聚类算法所依赖的距离函数;基于所述距离函数,采用k

【技术实现步骤摘要】
一种基于核函数的特征选择方法及装置


[0001]本专利技术涉及数据处理技术,更具体的说,是涉及一种基于核函数的特征选择方法及装置。

技术介绍

[0002]随着移动智能和物联网的飞速发展,人类产生的数据量正在呈指数级增长,大数据、人工智能应用也层出不穷。大数据、人工智能应用依赖于数据建模,建模效果依赖于特征选择。由于数据量巨大,特征维度多,目前特征选择方法多是基于SVD(Singular Value Decomposition,奇异值分解)、PCA(Principal Component Analysis,一种数据降维方式)、LDA(Linear Discriminant Analysis,线性判别分析)的数据降维技术,这些方法可以降低特征间的多重相关关系,提升模型泛化能力,但是其缺点也很明显,会让模型变得难以解释,不能满足金融领域模型可解释性的需求。

技术实现思路

[0003]有鉴于此,本专利技术提供如下技术方案:
[0004]一种基于核函数的特征选择方法,包括:
[0005]对第一数据集进行转置处理,得到第二数据集;
[0006]引入核函数,并基于所述第二数据集诱导出聚类算法所依赖的距离函数;
[0007]基于所述距离函数,采用k

中心聚类算法得到所述核函数建模的特征。
[0008]可选的,还包括:
[0009]基于所述建模的特征和模型评价指标,确定参数最优的核函数。
[0010]可选的,所述基于所述建模的特征和模型评价指标,确定参数最优的核函数,包括:
[0011]对于引入的核函数,基于模型指标,通过不断的参数调优,通过循环执行所述基于所述第二数据集诱导出聚类算法所依赖的距离函数和所述基于所述距离函数,采用k

中心聚类算法得到建模的特征的步骤,确定参数最优的核函数。
[0012]可选的,在所述基于所述建模的特征和模型评价指标,确定参数最优的核函数后,还包括:
[0013]基于所述模型评价指标确定最优的聚类数k。
[0014]可选的,所述基于所述模型评价指标确定最优的聚类数k,包括:
[0015]基于所述最优的核函数和所述模型评价指标,对所述k

中心聚类算法的聚类数k进行调优。
[0016]一种基于核函数的特征选择装置,包括:
[0017]数据处理模块,用于对第一数据集进行转置处理,得到第二数据集;
[0018]核距离确定模块,用于引入核函数,并基于所述第二数据集诱导出聚类算法所依赖的距离函数;
[0019]特征确定模块,用于基于所述距离函数,采用k

中心聚类算法得到所述核函数建模的特征。
[0020]可选的,还包括:
[0021]核函数确定模块,用于基于所述建模的特征和模型评价指标,确定参数最优的核函数。
[0022]可选的,所述核函数确定模块具体用于:对于选择的待确定核函数,基于模型指标,通过不断的参数调优,通过核距离确定模块和所述特征确定模块的循环工作,确定参数最优的核函数。
[0023]可选的,还包括:
[0024]聚类数确定模块,用于基于所述模型评价指标确定最优的聚类数k。
[0025]可选的,所述聚类数确定模块具体用于:基于所述最优的核函数和所述模型评价指标,对所述k

中心聚类算法的聚类数k进行调优。
[0026]经由上述的技术方案可知,与现有技术相比,本专利技术实施例公开了一种基于核函数的特征选择方法及装置,方法包括:对第一数据集进行转置处理,得到第二数据集;基于所述第二数据集诱导出聚类算法所依赖的距离函数;基于所述距离函数,采用k

中心聚类算法得到建模的特征。上述实现方案通过转置数据集,以特征为样本,引入核函数;使用核函数化的k

中心聚类算法进行特征分组,在降低建模特征间的多重相关关系,提升模型泛化能力的同时,提升模型特征的可解释性。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0028]图1为本申请实施例公开的一种基于核函数的特征选择方法的流程图;
[0029]图2为本申请实施例公开的一个基于核函数的特征选择方法的流程实现示意图;
[0030]图3为本申请实施例公开的一种基于核函数的特征选择装置的结构示意图。
具体实施方式
[0031]为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:
[0032]SVD:奇异值分解,是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。
[0033]PCA:一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。
[0034]LDA:一种经典的降维方法线性判别分析,是一种有监督的数据降维方法。
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]图1为本申请实施例公开的一种基于核函数的特征选择方法的流程图,参见图1所示,基于核函数的特征选择方法可以包括:
[0037]步骤101:对第一数据集进行转置处理,得到第二数据集。
[0038]其中,对第一数据集进行转置处理,即将所述第一数据集进行行列互换,以特征(列)为样本(行),转置后得到第二数据集。
[0039]步骤102:引入核函数,并基于所述第二数据集诱导出聚类算法所依赖的距离函数。
[0040]此处所述核函数,可以是基于一定设定规则引入的待确定的核函数,也即此处的核函数只是初始引入的核函数,方案实现中可以参数调优不断的更新引入的核函数,直至确定了参数最优的核函数。
[0041]其中的聚类算法,可以但不限制为k

中聚类算法。
[0042]步骤103:基于所述距离函数,采用k

中心聚类算法得到所述核函数建模的特征。
[0043]在确定了距离函数后,可以基于k

中心聚类算法进行聚类处理,得到核函数建模的特征。
[0044]本实施例所述基于核函数的特征选择方法,通过转置数据集,以特征为样本,引入核函数;使用核函数化的k

中心聚类算法进行特征分组,在降低建模特征间的多重相关关系,提升模型泛化能力的同时,提升模型特征的可解释性。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于核函数的特征选择方法,其特征在于,包括:对第一数据集进行转置处理,得到第二数据集;引入核函数,并基于所述第二数据集诱导出聚类算法所依赖的距离函数;基于所述距离函数,采用k

中心聚类算法得到所述核函数建模的特征。2.根据权利要求1所述核函数的特征选择方法,其特征在于,还包括:基于所述建模的特征和模型评价指标,确定参数最优的核函数。3.根据权利要求2所述的核函数的特征选择方法,其特征在于,所述基于所述建模的特征和模型评价指标,确定参数最优的核函数,包括:对于引入的核函数,基于模型指标,通过不断的参数调优,通过循环执行所述基于所述第二数据集诱导出聚类算法所依赖的距离函数和所述基于所述距离函数,采用k

中心聚类算法得到建模的特征的步骤,确定参数最优的核函数。4.根据权利要求2所述的基于核函数的特征选择方法,其特征在于,在所述基于所述建模的特征和模型评价指标,确定参数最优的核函数后,还包括:基于所述模型评价指标确定最优的聚类数k。5.根据权利要求4所述的基于核函数的特征选择方法,其特征在于,所述基于所述模型评价指标确定最优的聚类数k,包括:基于所述最优的核函数和所述模型评价指标,对所述k

【专利技术属性】
技术研发人员:袁宇
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1