一种基于改进L1正则化和聚类的高维数据特征选择方法技术

技术编号：29462499 阅读：68 留言：0更新日期：2021-07-27 17:33

本发明专利技术提供一种基于改进L1正则化和聚类的高维数据特征选择方法，涉及机器学习技术领域。本发明专利技术提出了一种混合特征选择算法用于微阵列数据分析，基于K‑Means聚类算法和改进L1正则化的思想，其中K‑Means聚类算法用于数据预处理来删除冗余特征，改进L1正则化方法用于特征选择，提高稳定性和分类准确率。

A feature selection method for high-dimensional data based on improved L1 regularization and clustering

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进L1正则化和聚类的高维数据特征选择方法
本专利技术涉及机器学习
，尤其涉及一种基于改进L1正则化和聚类的高维数据特征选择方法。
技术介绍
临床上已证实很多疾病同基因之间存在着密切的关系。通常，表达水平与疾病发生高度相关的基因被称为生物标志物，生物标志物的发现对于疾病的早期诊断和预防具有重要意义。为寻找信息最丰富的生物标志物并去除冗余和与目标疾病不相关的生物标志物，微阵列数据分析技术应运而生。微阵列数据分析技术用于确定生物标志物。众所周知，原始微阵列数据中与疾病相关的特征(基因)的实际数量相对较少，这是由于特征维度高和样本量小所致。这类数据通常包含少量样本和大量与目标疾病无关的特征。另外，微阵列数据具有很高的复杂性，即特征是具有高度冗余性的直接或相互关联的结果，这使得许多应用的机器学习算法显示出低鲁棒性和差的分类精度。因此，在构建模型之前寻找一种合适的方法来减少特征数量，提高模型的分类精度和鲁棒性具有十分重要的意义。特征选择对于挖掘大规模高维数据集，如微阵列和质谱分析生成的数据集，建立统计模型具有重要意义。在特征选择中，可以识别整个训练数据集中的显着特征。特征选择是在高维，小样本的生物数据中选择生物标记的中的重要一步。常见的特征选择方法可以分为过滤法、包装法和嵌入法，而目前较为先进的特征选择方法是将三种方法进行不同方式的改进和组合而成的混合式特征选择方法。这些方法大多采用叠加两个以上的特征选择方法，用来提高分类准确率。然而在微阵列数据分析中，研究人员往往更加关注特征选择结果的稳定性和特...

【技术保护点】
1.一种基于改进L1正则化和聚类的高维数据特征选择方法，其特征在于，包括以下步骤：/n步骤1：根据给定的基因微阵列数据集，利用K-Means聚类算法实现基因微阵列数据特征的聚类；/n步骤2：对于步骤1中产生的每个簇C

【技术特征摘要】
1.一种基于改进L1正则化和聚类的高维数据特征选择方法，其特征在于，包括以下步骤：
步骤1：根据给定的基因微阵列数据集，利用K-Means聚类算法实现基因微阵列数据特征的聚类；
步骤2：对于步骤1中产生的每个簇C1-Ck，利用皮尔森相关系数迭代删除冗余特征，更新每个簇；
步骤3：对于最终得到的特征集合f＝{f1，f2，...，fl}，从原始微阵列数据中找到对应的基因名称，完成对基因的特征分析。

2.根据权利要求1所述的一种基于改进L1正则化和聚类的高维数据特征选择方法，其特征在于，所述步骤1具体包括以下步骤：
步骤1.1：以基因微阵列数据样本集D＝{x1，x2，…，xm}为输入，进行K-Means聚类算法，其中聚类簇数量k，xj代表样本集中第j个特征，m为样本数目；
步骤1.2：从样本集D中随机选择k个样本作为初始均值向量{μ1，μ2，...，μk}，其中μi代表第i个样本对应的均值向量；
步骤1.3：对于样本集D中每一个特征xj，初始化令j＝1，执行如下操作：
步骤1.3.1：定义存储样本经过聚类后对应的簇
步骤1.3.2：计算特征xj与每一个均值向量μi的距离，并记为dji，公式如下所示；
dji＝||xj-μi||2(1)
步骤1.3.3：计算特征xj的簇标记λj，公式如下所示；

步骤1.3.4：将特征xj放入到对应的簇中，即
步骤1.3.5：令j＝j+1，判断j是否大于m，若大于转到步骤1.4，否则转到步骤1.3.2；
步骤1.4：对于每一个均值向量μi，令i＝1，执行如下操作：
步骤1.4.1：对μi的值进行更新并记为μ′i，如下式所示；

其中x表示所有数据集合Ci的特征；
步骤1.4.2：判断当前μi是否等于μ′i，若是则转到步骤1.4.3，否则保持当前μi不变，转到步骤1.4.4；
步骤1.4.3：将当前均值向量μi的值更新为μ′i；
步骤1.4.4：令i＝i+1，并判断i是否大于k，若是则转到步骤1.5，否则转到步骤1.4.1；
步骤1.5：若当前均值向量μi被更新，则转到步骤1.3，否则转到步骤1.6；
步骤1.6：对于得到的所有的Ci，其中i＝1，2，...，k，令C＝{C1，C2，...，Ck}；
步骤1.7：输出划分之后的簇C＝{C1，C2，...，Ck}。

3....

【专利技术属性】
技术研发人员：栗伟，谢维冬，王林洁，闵新，王珊珊，于鲲，
申请(专利权)人：东北大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人