当前位置: 首页 > 专利查询>东北大学专利>正文

基于图神经网络与谱聚类的高维数据特征选择方法技术

技术编号:27061385 阅读:33 留言:0更新日期:2021-01-15 14:41
本发明专利技术提供一种基于图神经网络与谱聚类的高维数据特征选择方法。首先将每个基因作为节点建立基因关系图结构模型,并将基因相互关系数据作为边信息添加到基因关系图中,然后利用图神经网络模型来获取节点的特征向量表示,在得到每个节点的特征向量表示之后,开始进行链接预测阶段,生成新的边,得到新的基因关系图,最后基于谱聚类在新的基因关系图中选择权重最高的节点作为特征节点,通过本发明专利技术最终选择的基因具有较小的冗余度同时实现了较好的模型效果,并支持生物角度的可解释性。

【技术实现步骤摘要】
基于图神经网络与谱聚类的高维数据特征选择方法
本专利技术涉及机器学习
,具体涉及一种基于图神经网络与谱聚类的高维数据特征选择方法。
技术介绍
在生物信息学领域中,处理的对象大多是多特征、高噪声、非线性的数据集。例如,研究人员利用基因芯片可以在一次实验中同时检测出成千上万个基因的表达值,从而获得大量的基因表达数据;还可以利用蛋白质质谱技术一次产出大量的蛋白质表达谱数据。但由于这些数据具有维数高、样本个数少的特点,常规的模式识别方法已不再适用。针对此类数据,如何剔除冗余特征、从海量数据中挖掘出隐藏的有用生物信息,成为研究识别与分类问题的关键。在样本个数有限的情况下,随着特征数目的增加,分类问题的计算复杂度将呈指数增长,从而出现“维数灾难”。而特征选择方法可以达到以下四个目的:①确定哪些是与输出相关的特征;②降低输入空间的维数,缩小求解问题的规模,从而降低算法复杂度,减少训练时间;③得到更好的决策函数,提高分类准确率;④对数据的内在属性产生更深刻的认识。特征选择是指对原始特征空间进行筛选,构造出一个特征空间的特征子空间,有效的特征选择可以提高学习算法的泛化性能,简化学习模型;以分类问题为背景,根据特征评价标准,传统的特征选择方法主要分为过滤法(Filter)和缠绕法(Wrapper)及嵌入式(Embedded)。除上述经典方法外,主流的改进方法是将经典方法进行优化、组合和进一步嵌入。但是,这些算法普遍假设样本间是相互独立的,或仅仅考虑数据间的特征关系,局限于在有限样本空间中寻找统计学层面的最佳解释,侧重了模型结果而忽略了生物学中仅因或蛋白之间的相互作用关系。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于图神经网络与谱聚类的高维数据特征选择方法,包括以下步骤:步骤1:基于先验知识构建基因关系图,包括:步骤1.1:利用GPL平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID,其中待处理基因微阵列数据S表示为S={X1,X2,…,Xi,…,XN},第i个样本Xi表示为每个样本均对应一个标签,表示第i个样本Xi中的第j个特征值,每个特征均对应一个探针名,N表示待处理基因微阵列数据S中的样本数,i=1,2,…,N,m表示每个样本中的特征数,j=1,2,…,m;步骤1.2:将所有的基因ID输入到Cytoscape软件的GeneMANIA插件中,利用边缘关系数据PhysicalInteraction生成所有基因ID之间的关系矩阵R,其中关系矩阵R中包含数据S中任意两个基因ID之间的关系权重系数;步骤1.3:利用得到的权重矩阵R构建基因关系图G=(v,ε),其中v表示基因关系图G中的所有节点,即v=(v1,v2,…vj,…,vm),每个节点代表一个基因ID,ε表示基因关系图G中的所有边,即ε∈(vj,vr)|vj,vr∈v,(vj,vr)表示同一条边上的两个节点,每条边代表所链接的两个基因ID之间的链接权重系数;步骤2:利用图神经网络构建基因关系图G中每个节点的特征向量;步骤3:基于图神经网络对基因关系图G进行链接预测,生成基因关系图G中新的边,得到新的基因关系图G*;步骤4:基于谱聚类在新的基因关系图G*中选择权重最高的节点作为特征节点。所述步骤2包括:步骤2.1:为每个节点vj设置一个初始的隐藏状态向量定义节点vj的所有一阶邻域节点N(vj)所对应的初始隐藏状态向量为步骤2.2:利用公式(1)所示的聚合操作,得到节点vj的所有一阶邻域节点N(vj)所对应的第k层的隐藏状态向量式中,AGGREGATEk()表示第k层的聚合函数;步骤2.3:利用公式(2)得到节点vj的第k层的隐藏状态向量式中,σ()表示非线性激活函数,Wk表示第k层的权重矩阵,COUNCAT()表示拼接函数;步骤2.4:利用公式(3)更新节点vj的第k层隐藏状态向量的值步骤2.5:令j=1,2,…,m,k=1,2,…,K,重复步骤2.2~步骤2.4,遍历计算出所有节点的第K层隐藏状态向量的值K表示图神经网络的层数,表示节点vj的第K层隐藏状态向量的值;步骤2.6:利用公式(4)将每个节点vj的第K层隐藏状态向量的值赋给得到每个节点的特征向量所述步骤3包括:步骤3.1:将基因关系图G中已经存在的边标注为正样本,所有的正样本构成的集合称为正样本集Pos;步骤3.2:删除基因关系图G中任意一对节点(vj,vr)之间的已有链接;步骤3.3:分别以节点vj、vr为起始节点进行随机采样操作,当以节点vj为起始节点进行随机采集操作时,在基因关系图G中随机选择γ个节点并分别建立与节点vj之间的链接,组成新的边,并将新的边标记为负样本,当以节点vr为起始节点进行随机采集操作时,再次在基因关系图G中随机选择γ个节点并分别建立与节点vr之间的链接,组成新的边,并将新的边标记为负样本,所有的负样本构成的集合称为负样本集Neg;步骤3.4:利用公式(5)计算任意两个节点(vj,vr)之间的相似度sim(vj,vr);式中,表示特征向量的在第维度上的值,表示特征向量的维度;步骤3.5:利用正样本集中所有节点对的相似度平均值,以及所有负样本集中的所有节点对的相似度平均值构建如公式(6)所示的损失函数,式中,L表示损失值,E表示取平均值操作,(vj,vr)∈Pos表示正样本集Pos中的两个节点,表示以节点vj为起始节点进行随机采集操作时所选择的节点,表示以节点vr为起始节点进行随机采集操作时所选择的节点,表示负样本集Neg中的两个节点;步骤3.6:利用随机梯度下降法训练损失函数,并计算每次训练时的损失值L,当相邻两次训练时的损失值之差的绝对值小于给定阈值δ时,停止迭代;步骤3.7:利用公式(7)计算每次训练过程中生成的链接预测模型的平均倒数秩,将平均倒数秩最高的链接预测模型作为最优链接预测模型;式中,MRR表示平均倒数秩,rankτ表示正样本集中的第τ个边对与负样本集中对应的γ个边进行评分时分数从大到小的排列序号;步骤3.8:利用最优图神经网络模型,对基因关系图G进行链接预测,生成新的边,得到新的基因关系图G*。所述步骤4包括:步骤4.1:定义新的基因关系图G*中所有节点为E,即E=(e1,e2,…,eζ),其中ζ表示基因关系图G*中的节点总数;步骤4.2:利用公式(8)计算任意的两个节点(eρ1,eρ2)之间的相似度wρ1,ρ2,并将wρ1,ρ2组成ζ维的相似度矩阵W,式中,Ω表示用于控制节点的邻域宽度;步骤4.3:计算相似度矩阵W的每行中所有元素的和,得到{d1,d2,…,dη,…dζ},其中dη表示第η行中的所有元素之和,利用{d1,d2,…,dη,…dζ}构建维度为ζ的对角矩阵D;步骤4.4:利用公式(9)本文档来自技高网
...

【技术保护点】
1.一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,包括如下步骤:/n步骤1:基于先验知识构建基因关系图,包括:/n步骤1.1:利用GPL平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID,其中待处理基因微阵列数据S表示为S={X

【技术特征摘要】
1.一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,包括如下步骤:
步骤1:基于先验知识构建基因关系图,包括:
步骤1.1:利用GPL平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID,其中待处理基因微阵列数据S表示为S={X1,X2,…,Xi,…,XN},第i个样本Xi表示为每个样本均对应一个标签,表示第i个样本Xi中的第j个特征值,每个特征均对应一个探针名,N表示待处理基因微阵列数据S中的样本数,i=1,2,…,N,m表示每个样本中的特征数,j=1,2,…,m;
步骤1.2:将所有的基因ID输入到Cytoscape软件的GeneMANIA插件中,利用边缘关系数据PhysicalInteraction生成所有基因ID之间的关系矩阵R,其中关系矩阵R中包含数据S中任意两个基因ID之间的关系权重系数;
步骤1.3:利用得到的权重矩阵R构建基因关系图G=(v,ε),其中v表示基因关系图G中的所有节点,即v=(v1,v2,…vj,…,vm),每个节点代表一个基因ID,ε表示基因关系图G中的所有边,即ε∈(vj,vr)|vj,vr∈v,(vj,vr)表示同一条边上的两个节点,每条边代表所连接的两个基因ID之间的连接权重系数;
步骤2:利用图神经网络构建基因关系图G中每个节点的特征向量;
步骤3:基于图神经网络对基因关系图G进行连接预测,生成基因关系图G中新的边,得到新的基因关系图G*;
步骤4:基于谱聚类在新的基因关系图G*中选择权重最高的节点作为特征节点。


2.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,所述步骤2包括:
步骤2.1:为每个节点vj设置一个初始的隐藏状态向量定义节点vj的所有一阶邻域节点N(vj)所对应的初始隐藏状态向量为
步骤2.2:利用公式(1)所示的聚合操作,得到节点vj的所有一阶邻域节点N(vj)所对应的第k层的隐藏状态向量



式中,AGGREGATEk()表示第k层的聚合函数;
步骤2.3:利用公式(2)得到节点vj的第k层的隐藏状态向量



式中,σ()表示非线性激活函数,Wk表示第k层的权重矩阵,COUNCAT()表示拼接函数;
步骤2.4:利用公式(3)更新节点vj的第k层隐藏状态向量的值



步骤2.5:令j=1,2,…,m,k=1,2,…,K,重复步骤2.2~步骤2.4,遍历计算出所有节点的第K层隐藏状态向量的值K表示图神经网络的层数,表示节点vj的第K层隐藏状态向量的值;
步骤2.6:利用公式(4)将每个节点vj的第K层隐藏状态向量的值赋给得到每个节点的特征向量





3.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,所述步骤3包括:
步骤3.1:将基因关系图G中已经存在的边标注为正样本,所有的正样本构成的集合称为正样本集Pos;
步骤3.2:删除基因关系图G中任意一对节点(vj,vr)之间的已有连接;
步骤3.3:分别以节点vj、vr为起始节点进行随机采样操作,当以节点vj为起始节点进行随机采集操作时,在基因关系图G中随机选择γ个节点并分别建立与节点vj之间的连接,组成新的边,并将新的边标记为负样本,当以节点vr为起始节点进行随机采集操作时,再次在基因关系图G中随机选择γ个节点并分别建...

【专利技术属性】
技术研发人员:栗伟谢维冬王林洁覃文军冯朝路闵新于鲲
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1