基于共表达网络的癌症靶向标志物测绘方法技术

技术编号:17879276 阅读:402 留言:0更新日期:2018-05-06 00:59
一种基于共表达网络的癌症靶向标志物测绘方法,包括以下步骤:1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵;2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值;3)训练神经网络模型,根据游走序列,进行神经网络模型参数的训练;4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现。本发明专利技术提供一种具有良好的普适性和精度,采用共表达基础网络构建和节点特征向量提取以及基因社区自动发现实现目标基因测绘的方法。

Mapping method for cancer targeting markers based on co expression network

A method of mapping cancer targeting markers based on co expression network, including the following steps: 1) constructing a co expressed basic network, calculating the adjacency matrix and topological matrix according to the gene expression data of the characteristic genes; 2) extracting the characteristics of the co expressed basic network, and converting each gene node of the topology network into a feature vector. For the eigenvalues of the network; 3) training the neural network model, training the parameters of neural network model according to the walk sequence, 4) mapping the target marker of cancer, and automatically discovering the target gene community based on the clustering center adaptive algorithm based on the density peak. The invention provides a method with good universality and precision, using co expression basic network construction, node feature vector extraction and gene community automatic discovery to realize target gene mapping.

【技术实现步骤摘要】
基于共表达网络的癌症靶向标志物测绘方法
本专利技术属于生物信息
,具体涉及一种癌症靶向目标基因测绘方法。
技术介绍
随着近年来科技以及医疗水平的不断进步,人们对抗疾病的能力与信心不断增强,但其中仍然存在许多缺陷与技术障碍。根据世界卫生组织的癌症报告估计,过去五年内中国癌症发病人数约占全球发病总人数的五分之一,而因罹患癌症死亡的人数则已超过全球癌症死亡总人数的四分之一。癌症死亡率居高不下,一个重要原因在于我国癌症发现较多处于中晚期。因此,人们在不断研究新的癌症治疗方法的同时,对于癌症靶向基因的检测,关键基因的提取以及相关癌症标志物的鉴定需要投入更多的科研精力。基因共表达网络分析作为一种挖掘和呈现基因在不同患病样本中表达形式的有效方法,可以搜索高度共表达的基因模块,而模块中包含的关键基因则可用于该模块的信息提炼。研究人员能够以此深入探讨基因模块或其关键基因与实际样本表型之间的关联关系。而在实际应用层面,基因共表达网络构建的基础——加权基因共表达网络构建(WGCNA)算法,已被用于复杂疾病的候选标记或药物靶点的鉴定和多项疾病的研究,如家族性混合型高脂血症、自闭症、阿尔兹海默症的关联基本文档来自技高网...
基于共表达网络的癌症靶向标志物测绘方法

【技术保护点】
一种基于共表达网络的癌症靶向标志物测绘方法,其特征在于:所述方法包括以下步骤:1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,过程如下:1.1)将已经经过预处理与筛选的特征基因的基因表达数据作为构建共表达基础网络的源数据;1.2)计算邻接矩阵,使用基因间表达水平的相关系数的幂指数加权值作为共表达的邻接矩阵,表示为Amatrix=[aij],计算公式如下:

【技术特征摘要】
1.一种基于共表达网络的癌症靶向标志物测绘方法,其特征在于:所述方法包括以下步骤:1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,过程如下:1.1)将已经经过预处理与筛选的特征基因的基因表达数据作为构建共表达基础网络的源数据;1.2)计算邻接矩阵,使用基因间表达水平的相关系数的幂指数加权值作为共表达的邻接矩阵,表示为Amatrix=[aij],计算公式如下:式(1)中,Mpool3表示候选基因个数,即特征基因的数量;cor(·,·)表示基因i与基因j之间的相关系数;β表示加权幂指数,β的值根据无标度网络原则确定:即出现连接度为k的节点个数与该节点出现的概率p(k)反比于k的τ次方,且此时的相关系数需大于某一阈值thre;1.3)计算拓扑矩阵,考虑基因与其它所有基因间的邻接关系,将邻接矩阵Amatrix转换为拓扑矩阵Ωmatrix=[ωij],计算公式如下:式(2)中,lij=∑uaiuauj表示与基因i、j都存在连边的基因u的邻接系数乘积和,ki=∑uaiu表示与基因i单独连接的基因u的邻接系数和,kj=∑uaju表示与基因j单独连接的基因u的邻接系数和;在与基因i和j之间无直接连接,且无任何其它的基因将这两个基因间接连接的情况下,取ωij=0;2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值,过程如下:2.1)根据步骤1.3)中得到的拓扑矩阵确定共表达网络的基本结构;2.2)针对网络中的每个节点进行二阶随机游走,节点总数表示为N,对于一个初始的头结点nu,定义游走长度为lrandomWalk,Ci表示游走中的第i个节点,并以C0=nu开始,Ci的生成满足以下分布:式(3)中,x为下一步可能游走的节点,ν为当前停留的节点,πvx表示节点v与x间未标准化的转移概率,Z表示标准化常数;对于Ci-2=t,t表示已游走的上一个节点,定义πvx=αpq(t,x),其计算公式为:式(4)中,α表示带p、q参数的偏置量,dtx表示节点t与x间的最短路径,且dtx∈{0,1,2};为了避免相邻节点间的重复游走并确保游走的范围尽可能大,可将参数p设置为一个较大值,取p>1将q设置为一个较小值,取q<1;若πvx相等,则随机选择一个节点进行游走;2.3)根据步骤2.2)将网络中的每个节点作为头结点进行游走,得到N条长度为lrandomWalk的游走序列;3)训练神经网络模型,根据步骤2.3)中得到的游走序列,进行神经网络模型参数的训练,过程如下:3.1)将网络中的每一个基因节点表示成实数形式的分布式特征向量,同时使用游走序列中的节点的分布式特征向量来表示网络节点间的连接概率函数;3.2)学习分布式特征向量与概率函数的参数,其中的训练集为步骤2.3)得到的游走序列;以一条游走序列为例,对序列中重复游走的节点仅保留第一个,处理后得到新的节点序列表示为{W1,W2,...,WT},WT∈V,其中V是节点集合,即大小为N的有限集合;训练目标是找到一个好的模型,使得该模型满足唯一的约束条件为:式(5)中,函数f(Wt-1,…,Wt-n+1)可以分解为两个部分:第一部分为映射H(·),其中H(i)表示节点集合中的每个节点的分布式特征向量,H实际上是一个由自由参数构成的|V|*m矩阵,其中m为自定义的向量维度;第二部分为函数g(·),该函数将输入的节点特征向量(H(Wt-n+1),…,H(Wt-1))映射为节点Wt前面n-1个节点的条件概率分布,即:f(i,Wt-1,…,Wt-n+1)=g(i,H(Wt-1),…,H(Wt-n+1))(6)当寻找得到满足带惩罚项的训练序列的对数似然率最大的θ,则训练结束,即:

【专利技术属性】
技术研发人员:陈晋音郑海斌王桢宣琦应时彦李南
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1