【技术实现步骤摘要】
一种基于半监督图神经网络的个体驱动基因预测方法
[0001]本专利技术涉及基因数据分析
,具体地说,设计一种基于半监督图神经网络的个体驱动基因预测方法。
技术介绍
[0002]癌症是由少量的基因组和转录组突变基因(即驱动基因)驱动的,这有助于理解在癌症精确医疗中治疗个体患者的分子机制癌症已成为威胁我国居民健康重大公共卫生问题之一。
[0003]在癌症基因组数据分析中,目前个体患者驱动基因预测方法主要可分为两种类型,即无监督学习方法和有监督学习方法。一方面,无监督学习方法主要利用网络技术,包括结构网络控制原理、重启随机游走(RWR)方法、网络扩散方法和斯坦纳树方法来对个体化驱动基因进行优先排序。虽然这些方法可以有效预测一些个体化的癌症驱动基因,但它们通常忽略现有的已知癌症驱动基因信息,容易出现假阳性,影响预测精度。另一方面,IMCDriver作为目前唯一的一种监督学习方法,主要是将成熟的驱动基因作为监督参考信息,采用归纳矩阵补全方法对个体化突变基因进行优先排序。然而,IMCDriver利用已知的泛癌驱动基因作为预测个体化驱动基因的参考信息,由于缺乏可用的成熟的癌症组织特异性驱动基因信息,这可能会影响个体化驱动基因预测的准确性。
技术实现思路
[0004]本专利技术的内容是提供一种基于半监督图神经网络的个体驱动基因预测方法,其能够针对癌症个体患者的基因组组学数据(即基因表达数据和单核苷酸变异(SNVs)数据),利用有限的癌症组织特异性驱动基因对个体化驱动基因进行优先排序。
[0005 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:包括以下步骤:1)利用个体患者基因组数据构建个体化基因交互网络PGIN;2)用标签重用策略训练图注意网络GAT,识别个体化驱动基因,具体为:a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签;b、在GAT上应用了标签重利用策略预测癌症驱动基因;c、对基因进行投票,并对基因得分进行排序,以获得个体患者的基因排序。2.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:步骤1)中,采用癌症基因组图谱TCGA数据库中乳腺浸润性癌BRCA以及肺癌个体病人的基因组组学数据构建PGIN,肺癌个体病人的基因组组学数据包括肺腺癌LUAD和肺鳞状细胞癌LUSC;使用Paired
‑
SSN方法对BRCA、LUSC和LUAD数据的基因表达和SNV突变数据集进行分析,Paired
‑
SSN方法通过整合基因体细胞突变数据、个体患者基因表达数据和已知的人类基因相互作用网络数据来构建个体患者的PGIN。3.根据权利要求2所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:Paired
‑
SSN方法整合基因突变数据、个体化基因表达数据和网络拓扑信息构建PGIN;单个病人k的PGIN包含邻接矩阵A
Patientk
和特征矩阵其中N为PGIN网络中基因数量;基因i的特征用以下公式计算:络中基因数量;基因i的特征用以下公式计算:络中基因数量;基因i的特征用以下公式计算:络中基因数量;基因i的特征用以下公式计算:络中基因数量;基因i的特征用以下公式计算:其中,Norm表示最小
‑
最大归一化函数;G(i)和G(j)分别表示突变基因i和基因j的个体癌症集合;是有n个参考样本的参考网络中基因i和基因j之间的PCC,是个体病人k有一个额外样本的扰动网络中的PCC;N(i)表示PGIN中节点i的相邻节点集。4.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:GAT为:给定PGIN一个图表示G=(V,E),其中V={v1,v2,...,v
N
}为PGIN节点的集合,E为PGIN边的集合,分别将A和表示为邻接矩阵和节点特征,其中N为节点数,F为节点特征的维数;标签矩阵C是类的数量;假设每个节点具有一个特征向量h
i
和标签y
i
,对于与图G相关数据集D={v
i
,h
i
,y
i
},都有训练集
D
Train
和测试集D
Test
;训练GAT的目的是预测未标记节点的标签;GAT预测基因标签包括两个方面:一个是具有图注意层的特征表示,另一个是驱动基因的标签预测;特征表示:图注意层的输入是一组节点特征输出是一组新的学习节点特征GAT模型在GCN的基础上进行改进,结合注意力机制GAT,注意力机制GAT为不同节点分配不同权重,在训练时依赖于成对的相邻节点,而不依赖具体的网络结构.GAT假设图中包含N个节点,则输入网络的节点向量记作:h={h1,h2,
…
,h
N
},h
i
∈R
F
,图注意力网络的输出向量记作:h'={h1',h2',
…
,h
N
'},h
i
'∈R
F
;模型在计算节点间的信息聚合时引入了自注意力机制,对应的计算公式为e
ij
=a(W
h
,W
j
)其中,e
ij
表示节点j对于节点i的重要性,并且节点i必须是节点j的一阶邻居,在计算节点间的注意力得分时则使用masked attention实现,上述对于邻居节点必须为一阶邻居的假设要求;设节点i有4个一阶邻居节点,即:h
j1
,h
j2
技术研发人员:郭伟峰,万瀚文,梅一博,王远超,朱璐瑶,程涵,
申请(专利权)人:郑州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。