本发明专利技术涉及逆向研究疾病亚型领域,旨在提供用于疾病亚型问题的基于网络的聚类方法。该用于疾病亚型问题的基于网络的聚类方法包括过程:获得O-G矩阵以及基因调控网络;选取适用于具体问题的基于网络的距离定义,构建距离矩阵;运用k-medoids算法对O-G矩阵进行聚类分析,聚类时距离的选择用基于网络的距离。本发明专利技术对于特定的基因网络,将有更好的组间相似性,能更有效地还原三种亚型;当有大量的基因需要测定其表达数据时,本发明专利技术通过优先精确测量信息基因的表达数据,不会大大地削弱对于疾病亚型的鉴定效果。
【技术实现步骤摘要】
本专利技术是关于逆向研究疾病亚型领域,特别涉及用于疾病亚型问题的基于网络的 聚类方法。
技术介绍
对于由基因变异导致的疾病的研究一直是一个非常热门的议题。在这些疾病中, 很多疾病都有不同的亚型。所谓亚型(subtype),是同一个疾病下的不同的种型。它们可能 由不同的病因引起,并且有不同的临床表征。例如HIV有1型和2型,肿瘤亚型有卵巢癌、 肺癌、子宫癌等。 对于疾病亚型的很多研究,现阶段还是集中在对于其病理的正向研究。而运用逆 向工程技术(reverse engineering),逆向研究疾病亚型也逐渐成为一个热门的话题。"逆 向工程技术"是一个研究主体系统的过程。它通过研究主体系统来鉴定系统的各个成分 以及它们之间的相互关联,并用另一种方式在更加抽象,更加上层的水平上对该系统进行 代表。逆向工程技术在疾病亚型鉴定与分类方面研究上的一个非常重要的应用,就是通 过已有的临床信息,例如基因表达数据(gene expression data)等,运用包括聚类分析 (cluster analysis)在内的各种手段,反向研究并鉴定疾病的亚型。然而,由于基因的表达 之间并非是独立的,而是会通过各种关系相互作用。因此,最终获取的基因表达数据,也应 该是相互关联的。而在以往的研究中,人们只是使用传统的聚类方法,并没有考虑这种基因 表达数据间的相互关联。因此,将有关基因的作用关系的信息加入聚类分析中是一个自然、 新颖的想法并且值得一试。
技术实现思路
本专利技术的主要目的在于克服现有技术中的不足,提供能更好的将疾病亚型进行分 类,更好的还原真实的疾病亚型的基于网络的聚类方法。为解决上述技术问题,本专利技术的解 决方案是: 提供,具体包括下述过程: (1)获得O-G矩阵以及基因调控网络; (2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵; (3)运用k-medoids算法对O-G矩阵进行聚类分析;聚类时距离的选择用基于网 络的距离; (4)得出最终关于疾病亚型的分类; 所述过程(1)具体包括下述步骤: 步骤A :根据基因调控网络(即基因-蛋白质调控网络,是一个细胞中DNA片段集 合通过相互间的各种非间接作用,比如RNA作用以及蛋白质表达作用,来影响其mRNA以及 蛋白质表达水平的相互关系)的特性(例如网络的平均出度、入度等参数),构建随机的有 向图来代表基因调控网络G(V,E);其中每个顶点i e V代表基因i及其产生的IiiRNA1和蛋 白质i (转录因子i);每条有向边e]ie E代表着"转录因子j调控基因i的转录"这种调 控关系; 步骤B :根据产生的基因调控网络G(V,E),对每个基因i建立激活函数仁(·),具 体建立方式为: 对于任意的基因i e V,i = l,2,K,n,我们从G(V,E)中找出所有与i相邻且以i 为有向边终点的点,构成影响因子集合{qpqytqj ;其中,Q1表示与i相邻且以i为有向 边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某 基因中对基因i起影响作用的因子,q ln表示与i相邻且以i为有向边终点的某基因中对基 因i起影响作用的因子,η表示基因调控网络中基因的数量; 确定解离常数Iclj,且Iclj从定义在区间上的均匀分布中选取; 确定希尔系数II1 j,且II1 j服从区间中的高斯分布函数,V2,4); 确定相对活性a i,且α,人定义在区间上的均匀分布上采样; 步骤C :确定无噪声动态基因调控模型,即确定公式(2. 1)的各个参数; 式(2. 1)中,\表示基因 i的浓度;yi表示蛋白质i的浓度;表示HiRNA1的浓 度变化率;表示蛋白质i的浓度变化率;叫表示基因i的最大转录速率;r i表示mRNA i 的翻译速率;Afy表示HiRNA1的降解速率;表示蛋白质i的降解速率;A (·)表示基因 i的激活函数; 确定公式(2. 1)中各个参数的具体方式为:mRNA的半衰期:/fKi以及蛋白质的半衰 期:?产"(以分钟为单位)从定义在区间上的高斯分布謂:27.5,56.:25)上采样; 根据公式(2. 9),获得mRNA以及蛋白质的降解速率,最大转录速率叫以及翻译速 率A服从区间上的均匀分布; 式(2. 9)中,表示HiRNA1的降解速率;λ"表示蛋白质i的降解速率;mRNA的 半衰期及蛋白质的半衰期?Γ 5"(以分钟为单位); 步骤D :在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓 度χ(Χρ χ2, Κ,χη)以及蛋白质浓度y(yp y2, K,yn)的初始值(可以令各个xjp y i服从区间上的均匀分布,并随机选取作为初始值),然后求解公式(2.1),得到最终的基因表 达数据; 所述过程⑵具体是指:根据过程⑴所获得的基因网络的拓扑关系G(V,E),定 义三种基于网络的距离,用于比较1 1(111,112,1^111)与12(1 21,122,1(,1211)的差别;其中11(叉 11, x12, K,xln)、x2(x21,x22, K,x2n)分别表示两个被试者 PjP P 2的 mRNA 浓度; 令G(V,E)代表该基因调控网络,其中每个顶点i e V代表基因i及其产生的KiRNA1 和蛋白质i (转录因子i);它关联的Xi表示该基因转录的HiRNAi浓度;令每条有向边E 代表着"转录因子j调控基因i的转录"这种调控关系;记T 1表示与节点i相连的边数(即 节点i的度),Ii表示节点i的入度,〇 i表示节点i的出度; 其中,基于网络的Jaccard距离定义为:公式(3. 10); 其中,令G(V,E)代表该基因调控网络,其中每个顶点i e V代表基因i及其产生 的mRNAjP蛋白质i (转录因子i);它关联的X ;表示该基因转录的mRNA ;浓度;T ;表示与节 点i相连的边数(即节点i的度),Ii表示节点i的入度,0 i表示节点i的出度;X H指被试 者Pl的IiiRNA1浓度;X 21指被试者P2的mRNA i浓度;η表示基因调控网络中基因的数量; 基于网络的Euclidean距离: ; 其中,X11指被试者Pl的mRNA i浓度;X 21指被试者P2的mRNA i浓度;X i;指被试者 Pl的HiRNAj浓度;X 2j指被试者P2的mRNA j浓度;η表示基因调控网络中基因的数量; 基于网络的Pearson距离: 其中,知指被试者Pl的mRNA i浓度;X 21指被试者P2的mRNA i浓度;η表示基因调 控网络中基因的数量; CN 105160208 A 说明书 4/7 页 1廣示节点i的入度;这里的心指被试者Pi的 InRNA1浓度;这里的X 12指被试者Pi的mRNA 2浓度; 所述过程⑶具体是指:将过程(2)中定义的距离引入聚类分析中,使用 k-medoids聚类分析方法,对过程(1)所获得的基因表达数据进行聚类; 假设有η个被试者,我们将η个被试者划分为k类,K-medoids聚类算法是,基于 网络的Pearson距离具体的算法具体方法如下: (a)从η个数据对象中任意选取k个数据对象作为medoids-聚类的中心, (b)选定基于网络的Person距离,即: 然后分别计算本文档来自技高网...
【技术保护点】
用于疾病亚型问题的基于网络的聚类方法,其特征在于,具体包括下述过程:(1)获得O‑G矩阵以及基因调控网络;(2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵;(3)运用k‑medoids算法对O‑G矩阵进行聚类分析;聚类时距离的选择用基于网络的距离;(4)得出最终关于疾病亚型的分类;所述过程(1)具体包括下述步骤:步骤A:根据基因调控网络的特性,构建随机的有向图来代表基因调控网络G(V,E);其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;步骤B:根据产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·),具体建立方式为:对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn};其中,q1表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,qsn表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,n表示基因调控网络中基因的数量;确定解离常数kij,且kij从定义在[0.01,1]区间上的均匀分布中选取;确定希尔系数nij,且nij服从[1,10]区间中的高斯分布函数确定相对活性αi,且αi从定义在[0,1]区间上的均匀分布上采样;步骤C:确定无噪声动态基因调控模型,即确定公式(2.1)的各个参数;FimRNA(x,y)=dxidt=mi·fi(y)-λiRNA·xiFiProt(x,y)=dyidt=ri·xi-λiProt·yi---(2.1)]]>式(2.1)中,xi表示基因i的浓度;yi表示蛋白质i的浓度;FimRNA表示mRNAi的浓度变化率;FiProt表示蛋白质i的浓度变化率;mi表示基因i的最大转录速率;ri表示mRNAi的翻译速率;表示mRNAi的降解速率;表示蛋白质i的降解速率;fi(·)表示基因i的激活函数;确定公式(2.1)中各个参数的具体方式为:mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt从定义在[5,50]区间上的高斯分布上采样;根据公式(2.9),获得mRNA以及蛋白质的降解速率,最大转录速率mi以及翻译速率ri服从[0.01,0.011]区间上的均匀分布;λiRNA=ln2TiRNAλiRrot=ln2TiRrot---(2.9)]]>式(2.9)中,表示mRNAi的降解速率;表示蛋白质i的降解速率;mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt;步骤D:在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓度x(x1,x2,K,xn)以及蛋白质浓度y(y1,y2,K,yn)的初始值,然后求解公式(2.1),得到最终的基因表达数据;所述过程(2)具体是指:根据过程(1)所获得的基因网络的拓扑关系G(V,E),定义三种基于网络的距离,用于比较x1(x11,x12,K,x1n)与x2(x21,x22,K,x2n)的差别;其中x1(x11,x12,K,x1n)、x2(x21,x22,K,x2n)分别表示两个被试者P1和P2的mRNA浓度;令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;令每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;记Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;其中,基于网络的Jaccard距离定义为:EJ=2Σi=1nTi|x1i-x2i|Σi=1nTi(x1i+x2i)+Σi=1nTi|x1i-x2i|]]> 公式(3.10);其中,令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;n表示基因调控网络中基因的数量;基于网络的Euclidean距离:EE=Σi=1nΣj=1nδij(x1i-x2i)(x1j-x2j)]]> 公式(3.11);式中,其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;x1j指被试者P1的mRNAj浓度;x2j指被试者P2的mRNAj浓...
【技术特征摘要】
...
【专利技术属性】
技术研发人员:孔德兴,方红晟,
申请(专利权)人:杭州奥视图像技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。