基于多网络的生物标志物识别方法技术

技术编号：23346515 阅读：33 留言：0更新日期：2020-02-15 04:57

本发明专利技术公开了一种基于多网络的生物标志物识别方法；考虑到样本异质性的影响，本发明专利技术方法首先对基因表达谱数据进行标准化处理并对样本进行主成分分析，利用前两个主成分对样本通过高斯混合模型聚类；对于每一类样本，构建一个基于多网络的网络传播模型对网络中的所有基因进行排序，用于初步筛选重要基因；为了获得具有最大区分能力、最小冗余的生物标志物，通过接收者操作特征曲线的线下面积(AUC)优化模型在上一步得到的重要特征中进一步对基因打分排序，获得生物标志物。本发明专利技术的方法充分利用了多源生物网络信息，可以有效识别具有最大分类能力、最小冗余和生物可解释性的生物标志物，用于异质的复杂疾病分析。

Biomarker recognition method based on multi network

全部详细技术资料下载

【技术实现步骤摘要】
基于多网络的生物标志物识别方法
本专利技术涉及生物信息学领域，特别是一种基于多网络的生物标志物识别方法。
技术介绍
复杂疾病异质性强，易受环境因素影响，这给复杂疾病的诊断和治疗带来困难。因此，异质复杂疾病分析已成为现代医学研究的重点之一。生物标志物是客观测量和评价正常生物过程、病理过程或药物干预反应的指标，也是机体受到损伤时的重要预警指标。从多种生物数据中挖掘有效的生物标志物是解决复杂疾病的关键。随着系统生物学的深入研究和高通量技术的迅速发展，大量的生物相互作用网络被获得，如蛋白质相互作用网络、代谢网络、调控网络、信号网络、蛋白质复合物等。网络信息反映了生命系统各组成元件之间复杂的相互作用。基于生物网络进行复杂疾病分析可以帮助研究人员了解疾病发生的规律并从网络层面揭示特定的疾病发病过程。近年来，网络传播模型已成功地用于识别与特定疾病相关的生物标志物。例如，Sun等人[1]提出一个改进的随机游走的MarkRank算法，用于在蛋白质相互作用网络上挖掘协同合作的网络生物标志物。Winter等人[2]提出一个与佩奇排序相似的...

【技术保护点】
1.一种基于多网络的生物标志物识别方法，其特征在于，包括以下步骤：/n1)对基因表达谱数据的每一个样本进行Z分数标准化，并进行主成分分析，提取前两个主成分；/n2)根据前两个主成分，对样本聚类；/n3)对于每一类，构建一个基于多网络的网络传播模型，对网络中的所有基因进行排序，初步筛选重要基因；/n4)通过AUC优化模型在步骤3)得到的重要基因中进一步对基因打分排序，获得生物标志物。/n

【技术特征摘要】
1.一种基于多网络的生物标志物识别方法，其特征在于，包括以下步骤：
1)对基因表达谱数据的每一个样本进行Z分数标准化，并进行主成分分析，提取前两个主成分；
2)根据前两个主成分，对样本聚类；
3)对于每一类，构建一个基于多网络的网络传播模型，对网络中的所有基因进行排序，初步筛选重要基因；
4)通过AUC优化模型在步骤3)得到的重要基因中进一步对基因打分排序，获得生物标志物。

2.根据权利要求1所述的基于多网络的生物标志物识别方法，其特征在于，步骤1)中，对基因表达谱数据的每个样本进行Z分数标准化的表达式为：x为每一个样本的基因原始表达值；μ是每一个样本的所有基因原始表达数据的均值；σ表示每一个样本的所有基因原始表达数据的标准差。

3.根据权利要求1所述的基于多网络的生物标志物识别方法，其特征在于，步骤1)中，提取前两个主成分的具体实现过程包括：
1)对标准化后的基因表达数据求特征的协方差矩阵；
2)获取协方差矩阵的特征值及对应的特征向量；
3)将特征值按照从大到小的顺序排序，选择其中最大的两个，将其对应的两个特征向量分别作为列向量，组成特征向量矩阵；
4)将样本点投影到选取的特征向量上，设标准化后的基因表达数据是样本数为m，基因数为n的矩阵a，协方差矩阵为n*n维，选取的两个特征向量组成的矩阵为b，则投影后的数据为：Y＝a×b，从而将原始样本的n维特征...

【专利技术属性】
技术研发人员：李幸一，李敏，项炬，王建新，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人