【技术实现步骤摘要】
基于网络表示学习的不完整多组学数据集成方法
本专利技术属于数据挖掘
,涉及一种多组学数据集成方法,具体涉及一种基于网络表示学习的不完整多组学数据集成方法。
技术介绍
随着基因测序等生物分子技术的飞速发展,TCGA、ICGC等数据库收集了大量癌症样本的不同组学数据(例如,基因组、表观组、转录组、蛋白组等)。由于癌症的发生和发展通常涉及多个组学层面的失调,与单组学数据分析相比,同时分析多个组学数据能够以系统生物学的视角理解癌症。癌症亚型识别、生存风险预测、癌症样本可视化等各个癌症研究领域,均依赖于多组学数据集成方法的特征提取和信息融合的能力。因此,需要一种集成多组学数据的有效信息的方法。在2014年,WangBo等人在NatureMethods期刊第11卷第3期发表了论文“SimilarityNetworkFusionforAggregatingDataTypesonaGenomicScale”,该方法基于网络中的信息扩散理论,将由多组学产生的多个相似性网络融合为一个相似性网络,从而集成了多组学中的有效信息,集成结果为样本的相似性网络。然而,在TCGA、ICGC等数据库中,癌症样本通常并不是拥有所有组学的数据(例如,在TCGA中的乳腺癌BRCA的数据中,1093个样本有mRNA表达特征,756个样本有microRNA表达特征,791个样本有甲基化特征,其中,同时拥有三个组学特征的样本只有624个),传统方法在集成多组学数据前需要对缺失组学的样本进行补值或过滤。缺失部分组学数据的样本的特点是在某些组学 ...
【技术保护点】
1.一种基于网络表示学习的不完整多组学数据集成方法,其特征在于,包括如下步骤:/n(1)获取不完整多组学数据:/n从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={f
【技术特征摘要】
1.一种基于网络表示学习的不完整多组学数据集成方法,其特征在于,包括如下步骤:
(1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
(2)构建基于组学xi的相似性网络Ai:
(2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni;
(2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:
其中,表示di(fa,·)中距离fa最近的前k个样本的集合,表示di(·,fb)中距离fb最近的前k个样本的集合,和分别表示和中的任意样本,1≤k≤ni;
(2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):
其中,exp(·)表示以自然常数为底数的幂运算;
(2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:
其中,表示si(fa,·)中与fa最相似的前k个样本的集合,fz表示中的任意样本;
(2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:
其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
(3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
(4)定义目标函数L:
(4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
(4b)设任意窗口包含的样本序列片段则定义正样本集合其中,3≤2c+1≤l;
(4c)设负样本集合为其中,β>0;
(4d)根据pos和neg,定义基于窗口win的目标函数L:
其中,log(·)表示以自然常数为底数的对数,∪表示集合的并,fe表示集合pos和集合neg的并集pos∪neg中的任意样本,σ(·)为Sigmoid函数,表示向量和向量θe的内积;
(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
(5a)统计每个节点fj在集合C中出现的频率fqj;
(5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2...
【专利技术属性】
技术研发人员:高琳,许晗,段然,黄明凤,宋阔,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。