【技术实现步骤摘要】
本专利技术涉及肿瘤标志物
,具体涉及一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法。
技术介绍
癌症是严重威胁人类生存和社会发展的重大疾病和严重的公共卫生问题之一,癌症控制已成为世界各国政府的卫生战略重点。MicroRNAs(miRNAs)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20~25个核苷酸。近些年,对miRNA研究越来越多,miRNA的表达水平与癌症的类型、分期及病人的其它临床数据相关,在癌症生物学的几乎所有方面都扮演角色,如增殖、凋亡、入侵、转移和血管生成。在选择肿瘤标志物时,仅仅选择一种血清miRNA作为肿瘤标志物往往特异性较低,若测定多种miRNA组合或miRNA表达谱,可提高诊断的准确性。但是目前遇到的问题是癌症的复杂性。尽管系统分子生物学技术极大地提高了发现导致肿瘤恶化的miRNA表达谱异常的可能性,但产生的海量分子生物学数据很少被系统分析和利用。尽管现有技术中有研究对癌症大数据和癌症miRNA表达谱进行数据挖掘,找出数据中蕴含的信息,例如,Wu等人综合比较了线性判别方法、二次判别分析,k近邻,bagging和boosting分类树(装袋和提高分类树),支持向量机和随机森林方法在卵巢癌分类中的应用,随机森林方法优于其他方法(Comparison ofstatistical methods forclassification ofovarian cancerusing mass spectrometry data.BaolinWu,Bioinformatics,2003,19(13):1636–1 ...
【技术保护点】
一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法,其特征在于,包括以下步骤:1)提供肿瘤病人的miRNA数据,所述miRNA数据包括肿瘤病人正常组织的miRNA数据和肿瘤组织的miRNA数据;2)将所述步骤1)得到的正常组织的miRNA数据和肿瘤组织的miRNA数据分别进行过滤;3)将所述步骤2)过滤后的肿瘤组织的miRNA数据分别做归一化处理,得到标准化的肿瘤组织的miRNA数据;4)将所述步骤3)得到的标准化的miRNA数据与下载的miRNA成熟序列进行序列比对,分别得到miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵;5)将所述步骤4)得到的三个矩阵分别作为网络中节点间的距离,分别构建miRNA表达量网络、miRNA结构网络和miRNA序列网络;6)比较所述步骤5)中的三个网络的平均边覆盖和度分布,得到具有相似二级结构的miRNA,所述相似二级结构的miRNA的表达量也相似;7)采用随机森林模型对所述步骤2)中得到相同病人的正常组织的miRNA数据和肿瘤组织的miRNA的表达量选择最佳子集,计算最佳子集的miRNA的MIC值;8)基于所述 ...
【技术特征摘要】
1.一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法,其特征在于,包括以下步骤:1)提供肿瘤病人的miRNA数据,所述miRNA数据包括肿瘤病人正常组织的miRNA数据和肿瘤组织的miRNA数据;2)将所述步骤1)得到的正常组织的miRNA数据和肿瘤组织的miRNA数据分别进行过滤;3)将所述步骤2)过滤后的肿瘤组织的miRNA数据分别做归一化处理,得到标准化的肿瘤组织的miRNA数据;4)将所述步骤3)得到的标准化的miRNA数据与下载的miRNA成熟序列进行序列比对,分别得到miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵;5)将所述步骤4)得到的三个矩阵分别作为网络中节点间的距离,分别构建miRNA表达量网络、miRNA结构网络和miRNA序列网络;6)比较所述步骤5)中的三个网络的平均边覆盖和度分布,得到具有相似二级结构的miRNA,所述相似二级结构的miRNA的表达量也相似;7)采用随机森林模型对所述步骤2)中得到相同病人的正常组织的miRNA数据和肿瘤组织的miRNA的表达量选择最佳子集,计算最佳子集的miRNA的MIC值;8)基于所述步骤7)的最佳子集miRNA的MIC值分别构建正常组织和肿瘤组织的miRNA网络;9)计算在正常组织和肿瘤组织的miRNA网络中同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤miRNA标志物的种类。10)采用最小网格聚类方法对所述步骤4)得到的miRNA序列比对值矩阵进行聚类,将序列相似的miRNA聚为一类,根据已知的miRNA的功能推知具有相同序列的miRNA的功能,从而验证筛选出肿瘤miRNA标志物的种类是否准确。2.根据权利要求1所述的方法,其特征在于,所述步骤2)中过滤具体为从挑选的相同病人的正常组织的miRNA数据和肿瘤组织的miRNA数据中去除miRNA表达量低于5%的数据。3.根据权利要求1所述的方法,其特征在于,所述步骤3)中归一化处理是采用Z标准化处理;Z标准化公式如式I所示:4.根据权利要求1所述的方法,其特征在于,所述步骤5)中构建miRNA表达量网络、miRNA结构网络和miRNA序列网络的方法具体为:miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵,作为网络中miRNA结点间的距离,miRNA表达量网络分为三个部分构建,第一部分所选阈值为25,第二部分所选阈值为33,第三部分所选阈值为161;所述miRNA结构网络分为三部分构建,第一部分所选阈值为16,第二部分所选阈值为27,第三部分所选阈值为49;所述miRNA序列网络一次构建完成。5.根据权利要求1所述的方法,其特征在于,所述步骤6)中平均边覆盖是采用以下方法进行计算:将复杂网络之间的平均边覆盖<o>定义为: < o > = 1 k Σ i , j o l , j , o i , j = 1 M Σ α a i , j [ α ] ]]>其中,k为至少在一个网络层中出现的结点对数;ai,j=1表示结点和结点之间有连边,ai,j=0表示结点和结点之间无连边;<0>=1时表示当且仅当所有网络连边都相同。6.根据权利要求1所述的方法,其特征在于,所述步骤7)中选择最佳子集后还包括:十折交叉验证对数据进行验证。7.根据权利要求1所述的方法,其特征在于,所述步骤7)中选择最佳子集是采用随机森林模型分类器对miRNA表达量进行过滤和封装,对正常组织和肿瘤组织的miRNA表达量进行特征选择。8.根据权利要求1所述的方法,其特征在于,所述步骤7)中最佳子集miRNA的MIC值采用如下计算方法得到:首先定义两个联合随机变量(X,Y)特征矩阵的分布规律的性质,然后使用G(k,l)表示;k,l均为正整数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。