【技术实现步骤摘要】
基于图神经网络与谱聚类的高维数据特征选择方法
本专利技术涉及机器学习
,具体涉及一种基于图神经网络与谱聚类的高维数据特征选择方法。
技术介绍
在生物信息学领域中,处理的对象大多是多特征、高噪声、非线性的数据集。例如,研究人员利用基因芯片可以在一次实验中同时检测出成千上万个基因的表达值,从而获得大量的基因表达数据;还可以利用蛋白质质谱技术一次产出大量的蛋白质表达谱数据。但由于这些数据具有维数高、样本个数少的特点,常规的模式识别方法已不再适用。针对此类数据,如何剔除冗余特征、从海量数据中挖掘出隐藏的有用生物信息,成为研究识别与分类问题的关键。在样本个数有限的情况下,随着特征数目的增加,分类问题的计算复杂度将呈指数增长,从而出现“维数灾难”。而特征选择方法可以达到以下四个目的:①确定哪些是与输出相关的特征;②降低输入空间的维数,缩小求解问题的规模,从而降低算法复杂度,减少训练时间;③得到更好的决策函数,提高分类准确率;④对数据的内在属性产生更深刻的认识。特征选择是指对原始特征空间进行筛选,构造出一个特征空间的特征子空间,有效的特征选择可以提高学习算法的泛化性能,简化学习模型;以分类问题为背景,根据特征评价标准,传统的特征选择方法主要分为过滤法(Filter)和缠绕法(Wrapper)及嵌入式(Embedded)。除上述经典方法外,主流的改进方法是将经典方法进行优化、组合和进一步嵌入。但是,这些算法普遍假设样本间是相互独立的,或仅仅考虑数据间的特征关系,局限于在有限样本空 ...
【技术保护点】
1.一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,包括如下步骤:/n步骤1:基于先验知识构建基因关系图,包括:/n步骤1.1:利用GPL平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID,其中待处理基因微阵列数据S表示为S={X
【技术特征摘要】
1.一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,包括如下步骤:
步骤1:基于先验知识构建基因关系图,包括:
步骤1.1:利用GPL平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID,其中待处理基因微阵列数据S表示为S={X1,X2,…,Xi,…,XN},第i个样本Xi表示为每个样本均对应一个标签,表示第i个样本Xi中的第j个特征值,每个特征均对应一个探针名,N表示待处理基因微阵列数据S中的样本数,i=1,2,…,N,m表示每个样本中的特征数,j=1,2,…,m;
步骤1.2:将所有的基因ID输入到Cytoscape软件的GeneMANIA插件中,利用边缘关系数据PhysicalInteraction生成所有基因ID之间的关系矩阵R,其中关系矩阵R中包含数据S中任意两个基因ID之间的关系权重系数;
步骤1.3:利用得到的权重矩阵R构建基因关系图G=(v,ε),其中v表示基因关系图G中的所有节点,即v=(v1,v2,…vj,…,vm),每个节点代表一个基因ID,ε表示基因关系图G中的所有边,即ε∈(vj,vr)|vj,vr∈v,(vj,vr)表示同一条边上的两个节点,每条边代表所连接的两个基因ID之间的连接权重系数;
步骤2:利用图神经网络构建基因关系图G中每个节点的特征向量;
步骤3:基于图神经网络对基因关系图G进行连接预测,生成基因关系图G中新的边,得到新的基因关系图G*;
步骤4:基于谱聚类在新的基因关系图G*中选择权重最高的节点作为特征节点。
2.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,所述步骤2包括:
步骤2.1:为每个节点vj设置一个初始的隐藏状态向量定义节点vj的所有一阶邻域节点N(vj)所对应的初始隐藏状态向量为
步骤2.2:利用公式(1)所示的聚合操作,得到节点vj的所有一阶邻域节点N(vj)所对应的第k层的隐藏状态向量
式中,AGGREGATEk()表示第k层的聚合函数;
步骤2.3:利用公式(2)得到节点vj的第k层的隐藏状态向量
式中,σ()表示非线性激活函数,Wk表示第k层的权重矩阵,COUNCAT()表示拼接函数;
步骤2.4:利用公式(3)更新节点vj的第k层隐藏状态向量的值
步骤2.5:令j=1,2,…,m,k=1,2,…,K,重复步骤2.2~步骤2.4,遍历计算出所有节点的第K层隐藏状态向量的值K表示图神经网络的层数,表示节点vj的第K层隐藏状态向量的值;
步骤2.6:利用公式(4)将每个节点vj的第K层隐藏状态向量的值赋给得到每个节点的特征向量
3.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,所述步骤3包括:
步骤3.1:将基因关系图G中已经存在的边标注为正样本,所有的正样本构成的集合称为正样本集Pos;
步骤3.2:删除基因关系图G中任意一对节点(vj,vr)之间的已有连接;
步骤3.3:分别以节点vj、vr为起始节点进行随机采样操作,当以节点vj为起始节点进行随机采集操作时,在基因关系图G中随机选择γ个节点并分别建立与节点vj之间的连接,组成新的边,并将新的边标记为负样本,当以节点vr为起始节点进行随机采集操作时,再次在基因关系图G中随机选择γ个节点并分别建...
【专利技术属性】
技术研发人员:栗伟,谢维冬,王林洁,覃文军,冯朝路,闵新,于鲲,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。