当前位置: 首页 > 专利查询>上海大学专利>正文

一种生物网络关键差异节点的样本特征提取及预测方法技术

技术编号:21895814 阅读:53 留言:0更新日期:2019-08-17 16:04
本发明专利技术涉及一种生物网络关键差异节点的样本特征提取及预测方法,结合网络拓扑与分子表达特征预测生物网络关键差异节点。特征提取方法具体包括A数据预处理、B提取特征向量、C节点标记和D扩充正样本;预测方法上特征提取的基础上增加E随机森林模型训练和F预测关键节点。本发明专利技术可以提取同一细胞在不同状态下的生物网络特征,样本特征的提取可以更有效的利用样本,使得到的训练集更有普适性,该算法对解决问题具有更强的泛化能力。

A Sample Feature Extraction and Prediction Method for Key Differential Nodes in Biological Networks

【技术实现步骤摘要】
一种生物网络关键差异节点的样本特征提取及预测方法
本专利技术涉及一种生物网络的机器学习预测方法,特别是涉及提取生物网络节点特征的方法。
技术介绍
随着高通量生物测序技术的不断发展,生物学数据不断涌现,不断地促进生物信息学的发展。生物分子网络是一个有效的研究视角,可以深入有效地挖掘隐藏于生物学数据中丰富且有价值的信息。目前,研究人员普遍采用图来表示复杂网络,并以图论的方法来研究它们。对于生物分子网络而言,图中的节点表示生物分子,边表示生物分子之间的调控、相互作用等各种关系。生物分子包括基因、蛋白质等。在复杂疾病的发展或者细胞发育命运决定的生命过程中,不同状态可建立不同的生物网络。这些网络的差异往往与某几个关键的生物分子的表达和密切相关。关键节点(生物分子)与生物标志物的发现在药物靶点与疾病预防中起到重要参考作用。生命在不同状态下生物网络所具有的特异性,仅用图论的方法来研究关键差异节点是不够的,还面临着更多的问题,主要包括:(1)传统计算的方法往往难以提取出不同状态下的生物网络的特征。而机器学习方法在选择好合适的算法模型和训练集的前提下,一般可以提取出不同状态下的生物网络特征以训练出更加普适的模型。(2)在机器学习的过程中,如何构建出新的差异性特征提取方法,结合网络中节点的基因表达值和拓扑结构,将差异信息向量化,以便后续的训练及预测。(3)在生物网络中普遍存在正负样本不平衡问题,正负样本不平衡会使得对比例大的那部分样本造成过拟合,而在预测的过程中会偏向样本数量多的那个分类,从而降低模型的泛化能力。目前,已有一些研究小组在进行这方面的研究,也开发了少量的工具。这些方法各有其优点,但也各有其局限性,无法满足系统生物学的需要。而这些局限性主要体现在传统关键基因预测方法难以提取不同状态下的生物网络特征,而对于不同状态的生物网络,结合网络拓扑与分子表达特征,将有效提高关键基因预测准确率。
技术实现思路
本专利技术要解决的就技术问题:针对传统计算的方法往往难以提取出不同状态下的生物网络的特征及生物网络中普遍存在正负样本不平衡问题,提供了一种结合网络拓扑与分子表达特征预测生物网络关键差异节点的特征提取方法。为达到上述目的,本专利技术的构思是:首先预处理一组生物分子网络数据,查找网络中的各节点在相应状态下的生物分子表达水平数据,针对数据集查找文献中已支持的影响生命过程且与形成网络差异相关的生物分子(网络中为节点);其次建立特征工程,结合网络拓扑与分子表达构造五维特征向量;再者,对训练集样本进行数据标记,用基于Pearson相关系数的正样本扩充方法平衡数据;然后使用准备好的训练集,对模型进行训练;最后,根据训练后的模型结果,对新的对照生物分子网络进行比对,预测出生物生命过程中的关键节点。根据上述专利技术构思,对于相同节点的网络A(GA)、网络B(GB)及目标关键节点集T(Gt),本专利技术采用下述技术方案:本专利技术采用下述技术方案:一种生物网络关键差异节点的样本特征提取方法,包括以下步骤:A、数据预处理:从生物网络数据库中找一组对照网络,网络A(GA)、网络B(GB),查找网络中各节点在相应状态下的生物分子表达值。从常见的生物数据库中找一组对照网络,常见的生物数据库包括GEO数据库、TheInteractome数据库等;查找网络中各节点在相应状态下的生物分子表达水平数据,一般生物分子表达数据会从GEO等数据库中搜集;针对所选数据集,查找文献中已支持的影响生命过程且与形成网络差异有关的生物分子。B、提取特征向量:从节点的表达值和拓扑结构两个方面将差异信息向量化,量化对照网络中的各个节点在不同状态下的差异。C、标记节点:在数据和特征向量化完成之后就要开始对训练集的所有节点进行标记;节点将被划分为先验节点(1)或者未标记节点(0)两类。D、扩充正样本:在文献中查出的关键节点数量一般较少,而会导致正负样本(先验节点与未标记节点)不平衡的问题。因此,在构建测试集的时候提出了一种正样本(先验节点)扩充方法来平衡正负样本(先验节点与未标记节点)的数量,计算所有先验节点特征向量与未标记节点特征向量的Pearson相关性系数,若是存在某个未标记节点与某个先验节点的Pearson相关性系数大于等于阀值ε,则把该未标记节点标记为先验节点。所述对照网络为细胞在不同状态下的网络,包括健康状态、疾病状态以及细胞在发育过程中不同阶段的生物网络。在步骤B中,计算生物分子(网络中为节点)表达差异。从数据库中获取对照生物网络中每个节点表达值,每个节点从数据库中采集至少三个表达值,以生物分子节点在不同状态网络中表达值集合的P-value作为节点特征向量的一个维度。生物分子表达值的变化是生物分子改变的直观表现。使用p-value来刻画生物分子表达的差异,这种差异是在整个数值群体中的,具有统计学意义的差异的显著性。在步骤B中,节点在对照网络中的拓扑结构差异包括:度的差异、中介中心度的差异、接近中心度的差异或聚集系数的差异,将上述4种差异的一种、两种、三种或四种作为节点特征向量的维度。以节点在对照网络中的4种拓扑结构差异及表达值差异构建五维特征向量,,和分别表示两种状态下的生物分子网络中节点𝑣的度;,分别表示两种状态下的生物分子网络中节点𝑣的中介中心度;,分别表示两种状态下的生物分子网络中节点𝑣的接近中心度;,分别表示两种状态下的生物分子网络中节点𝑣的聚集系数。,𝐸和𝐸’分别表示在两种不同状态下,各生物分子的各生物分子的表达值集合。在步骤C中,若从生物数据库获取某节点的生物分子已支持影响生命过程且与形成网络差异有关,则标记为先验节点,反之则为未标记节点。在步骤D中阀值ε≥0.8。一种生物网络关键差异节点的预测方法,其特征在于包括:一、从生物网络数据库中获取训练集样本和测试集样本,每个样本包含一种细胞在不同状态下的两个对照网络;二、量化样本中每个节点在两个对照网络中的表达值差异和拓扑结构差异,称为样本特征;三、为训练集样本中的所有节点打上标签;四、使用准备好的训练集,对随机森林模型进行训练:将经过步骤三得到训练集样本的样本特征和标签输入到机器学习算法模型中进行训练;。随机森林模型是一种基于树形结构集成的算法,它可以用作分类和回归。一个传统的随机森林模型是由几百个决策树组成,最终的预测结果由所有的决策树投票得来。五、在模型训练好之后,便可对新的对照生物分子网络组进行比对,预测出另一生命过程中的关键性节点:向模型中输入测试集样本的节点差异,利用训练集的数据预测测试集样本节点的标签。在步骤一至三中,具体按照上述生物网络关键差异节点的样本特征提取方法的A-D步骤获取训练集样本的节点差异和标签,按照样本特征提取方法所述A-B步骤获取测试集样本的节点差异。所述机器学习算法模型为随机森林模型。本专利技术与现有技术相比较,具有如下突出的实质性特点和显著优点:1.该方法使用了现有数据库文献中的先验知识,避免了以往算法不能合理利用先验知识而带来的计算的盲目性。2.模型构建新的差异性特征,从节点的生物分子表达值和拓扑结构两个方面将差异信息向量化,以便后续的训练及预测;除了比较重要的表达值差异以外,还以生物网络的拓扑结构差异为基础扩充了4个维度,每增加一个维度,都可以在一定程度上提高预测准确度。本文档来自技高网
...

【技术保护点】
1.一种生物网络关键差异节点的样本特征提取方法,其特征在于包括以下步骤:A、数据预处理:从生物网络数据库中找一组对照网络,查找网络中各节点在相应状态下的生物分子表达值;B、提取特征向量:从节点的表达值和拓扑结构两个方面将差异信息向量化,量化对照网络中的各个节点在不同状态下的差异;C、标记节点:将节点划分为先验节点或者未标记节点两类。

【技术特征摘要】
1.一种生物网络关键差异节点的样本特征提取方法,其特征在于包括以下步骤:A、数据预处理:从生物网络数据库中找一组对照网络,查找网络中各节点在相应状态下的生物分子表达值;B、提取特征向量:从节点的表达值和拓扑结构两个方面将差异信息向量化,量化对照网络中的各个节点在不同状态下的差异;C、标记节点:将节点划分为先验节点或者未标记节点两类。2.根据权利要求1所述生物网络关键差异节点的样本特征提取方法,其特征在于:所述对照网络为细胞在不同状态下的网络,包括健康状态、疾病状态或细胞在发育过程中不同阶段的生物网络。3.根据权利要求1所述生物网络关键差异节点的样本特征提取方法,其特征在于步骤C完成后执行步骤D扩充正样本:计算所有先验节点特征向量与未标记节点特征向量的Pearson相关性系数,若是存在某个未标记节点与某个先验节点的Pearson相关性系数大于等于阀值ε,则把该未标记节点标记为先验节点。4.根据权利要求1所述生物网络关键差异节点的样本特征提取方法,其特征在于:在步骤B中,从数据库中获取对照生物网络中每个节点表达值,每个节点从数据库中采集三个以上表达值,以生物分子节点在不同状态网络中表达值集合的P-value作为节点特征向量的一个维度。5.根据权利要求4所述生物网络关键差异节点的样本特征提取方法,其特征在于在步骤B中,节点在对照网络中的拓扑结构差异包括:度的差异、中介中心度的差异、接近中心度的差异或聚集系数的差异,将上述4种差异的一种、两种、三种或四种作为节点特征向量的维度。6.根据权利要求5所述生物网络关键差异节点的样本特征提取方法,其特征在于:以...

【专利技术属性】
技术研发人员:谢江王娇孙佳敏李嘉鑫杨伏长
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1