基于网络表示学习的不完整多组学数据集成方法技术

技术编号:26036938 阅读:52 留言:0更新日期:2020-10-23 21:15
本发明专利技术提出了一种基于网络表示学习的不完整多组学数据集成方法,用于解决现有技术无法利用所有缺失部分组学数据的样本的问题。实现步骤为,获取不完整多组学数据;构建基于组学x

【技术实现步骤摘要】
基于网络表示学习的不完整多组学数据集成方法
本专利技术属于数据挖掘
,涉及一种多组学数据集成方法,具体涉及一种基于网络表示学习的不完整多组学数据集成方法。
技术介绍
随着基因测序等生物分子技术的飞速发展,TCGA、ICGC等数据库收集了大量癌症样本的不同组学数据(例如,基因组、表观组、转录组、蛋白组等)。由于癌症的发生和发展通常涉及多个组学层面的失调,与单组学数据分析相比,同时分析多个组学数据能够以系统生物学的视角理解癌症。癌症亚型识别、生存风险预测、癌症样本可视化等各个癌症研究领域,均依赖于多组学数据集成方法的特征提取和信息融合的能力。因此,需要一种集成多组学数据的有效信息的方法。在2014年,WangBo等人在NatureMethods期刊第11卷第3期发表了论文“SimilarityNetworkFusionforAggregatingDataTypesonaGenomicScale”,该方法基于网络中的信息扩散理论,将由多组学产生的多个相似性网络融合为一个相似性网络,从而集成了多组学中的有效信息,集成结果为样本的相似性网络。然而,在TCGA、ICGC等数据库中,癌症样本通常并不是拥有所有组学的数据(例如,在TCGA中的乳腺癌BRCA的数据中,1093个样本有mRNA表达特征,756个样本有microRNA表达特征,791个样本有甲基化特征,其中,同时拥有三个组学特征的样本只有624个),传统方法在集成多组学数据前需要对缺失组学的样本进行补值或过滤。缺失部分组学数据的样本的特点是在某些组学的上万维特征同时缺失,在这种情况下补值算法的性能通常较差,进而影响多组学数据集成方法的特征提取能力。由于癌症的组学数据中通常样本数远少于特征数,过滤大量的样本会降低多组学数据集成方法的统计能力,并且会在下游任务中增加假阳性发现的风险。因此,需要一种在集成多组学数据时能够利用缺失部分组学数据的样本的方法,这样的方法也称为不完整多组学数据集成方法。在2019年RappoportNimrod和ShamirRon在Bioinformatics期刊第35卷第18期发表了论文“NEMO:CancerSubtypingbyIntegrationofPartialMulti-omicData”,该方法通过平均在不同相似性网络中可观测到的相似性的方式来整合多组学数据的信息,得到的集成结果为样本的相似性网络。然而,该方法有较严格的基本假设:要求任意一对样本至少在同一个的组学中同时出现。这使得当存在两个样本测量的组学数据没有交集时,该方法无法处理。根据以上叙述,对多组学数据集成分析的问题而言,通常存在癌症样本量过少的问题,传统多组学数据集成方法在使用前需要过滤缺失部分组学的样本,而针对不完整多组学数据集成的现有技术NEMO仍然无法利用所有缺失部分组学数据的样本。
技术实现思路
本专利技术的目的在于针对上述现有技术的不足,提出一种基于网络表示学习的不完整多组学数据集成方法,旨在解决现有技术无法利用所有缺失部分组学数据的样本的问题。为实现上述目的,本专利技术采取的技术方案包括如下步骤:(1)获取不完整多组学数据:从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;(2)构建基于组学xi的相似性网络Ai:(2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni;(2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:其中,表示di(fa,·)中距离fa最近的前k个样本的集合,表示di(·,fb)中距离fb最近的前k个样本的集合,和分别表示和中的任意样本,1≤k≤ni;(2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):其中,exp(·)表示以自然常数为底数的幂运算;(2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:其中,表示si(fa,·)中与fa最相似的前k个样本的集合,fz表示中的任意样本;(2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;(3)生成节点序列的集合C:从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;(4)定义目标函数L:(4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;(4b)设任意窗口包含的样本序列片段则定义正样本集合其中,3≤2c+1≤l;(4c)设负样本集合为其中,β>0;(4d)根据pos和neg,定义基于窗口win的目标函数L:其中,log(·)表示以自然常数为底数的对数,∪表示集合的并,fe表示集合pos和集合neg的并集pos∪neg中的任意样本,σ(·)为Sigmoid函数,表示向量和向量θe的内积;(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:(5a)统计每个节点fj在集合C中出现的频率fqj;(5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2c+1,步长为1,滑动次数为l-2c-1;(5c)初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,设在集合C中已抽取的序列个数为ns,初始化ns为0;(5d)从C中无放回地随机抽取一个序列seq,初始化iter为0,其中,iter为滑动窗口在序列seq上已滑动的次数;(5e)根据当前窗口内包含的序列片段计算目标函数Lns,iter的值,其中,Lns,iter表示基于第ns个序列中的第iter个滑动窗口的目标函数;(5f)根据目标函数Lns,iter,采用梯度下降法对neg和pos中每个节点fe的辅助向量θe进行更新,本文档来自技高网
...

【技术保护点】
1.一种基于网络表示学习的不完整多组学数据集成方法,其特征在于,包括如下步骤:/n(1)获取不完整多组学数据:/n从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={f

【技术特征摘要】
1.一种基于网络表示学习的不完整多组学数据集成方法,其特征在于,包括如下步骤:
(1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
(2)构建基于组学xi的相似性网络Ai:
(2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni;
(2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:



其中,表示di(fa,·)中距离fa最近的前k个样本的集合,表示di(·,fb)中距离fb最近的前k个样本的集合,和分别表示和中的任意样本,1≤k≤ni;
(2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):



其中,exp(·)表示以自然常数为底数的幂运算;
(2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:



其中,表示si(fa,·)中与fa最相似的前k个样本的集合,fz表示中的任意样本;
(2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:



其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
(3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
(4)定义目标函数L:
(4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
(4b)设任意窗口包含的样本序列片段则定义正样本集合其中,3≤2c+1≤l;
(4c)设负样本集合为其中,β>0;
(4d)根据pos和neg,定义基于窗口win的目标函数L:



其中,log(·)表示以自然常数为底数的对数,∪表示集合的并,fe表示集合pos和集合neg的并集pos∪neg中的任意样本,σ(·)为Sigmoid函数,表示向量和向量θe的内积;
(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
(5a)统计每个节点fj在集合C中出现的频率fqj;
(5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2...

【专利技术属性】
技术研发人员:高琳许晗段然黄明凤宋阔
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1