当前位置: 首页 > 专利查询>赵毅专利>正文

一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法技术

技术编号:14167574 阅读:86 留言:0更新日期:2016-12-12 14:33
本发明专利技术提供的一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法,将随机森林模型和复杂网络中的节点介数结合在一起,用最小网格聚类方法验证,提供一种新的视角分析发现肿瘤致病因子和诊断标记物。通过生物信息学,数学统计分析,建立不同miRNA网络数据的相关性,用平均边覆盖和度分布比较miRNA表达量网络、miRNA结构网络和miRNA序列网络,从而分析整合了与肿瘤相关的不同miRNA的数据网络,在各种不同类型miRNA数据层之间建立起聚类特征的内部连结,以形成一个复杂的网络。这种不同种类生物分子之间的高度整合提供了一种更加简便,准确度更高的筛选方法,从而为癌症诊断和药物的发现提供更有价值的参考。

【技术实现步骤摘要】

本专利技术涉及肿瘤标志物
,具体涉及一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法
技术介绍
癌症是严重威胁人类生存和社会发展的重大疾病和严重的公共卫生问题之一,癌症控制已成为世界各国政府的卫生战略重点。MicroRNAs(miRNAs)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20~25个核苷酸。近些年,对miRNA研究越来越多,miRNA的表达水平与癌症的类型、分期及病人的其它临床数据相关,在癌症生物学的几乎所有方面都扮演角色,如增殖、凋亡、入侵、转移和血管生成。在选择肿瘤标志物时,仅仅选择一种血清miRNA作为肿瘤标志物往往特异性较低,若测定多种miRNA组合或miRNA表达谱,可提高诊断的准确性。但是目前遇到的问题是癌症的复杂性。尽管系统分子生物学技术极大地提高了发现导致肿瘤恶化的miRNA表达谱异常的可能性,但产生的海量分子生物学数据很少被系统分析和利用。尽管现有技术中有研究对癌症大数据和癌症miRNA表达谱进行数据挖掘,找出数据中蕴含的信息,例如,Wu等人综合比较了线性判别方法、二次判别分析,k近邻,bagging和boosting分类树(装袋和提高分类树),支持向量机和随机森林方法在卵巢癌分类中的应用,随机森林方法优于其他方法(Comparison ofstatistical methods forclassification ofovarian cancerusing mass spectrometry data.BaolinWu,Bioinformatics,2003,19(13):1636–1643.),但是该方法使用比较复杂。另外,McDermott等人利用LuminimalA-like乳腺癌患者和对照组的血液样本,提取RNA,逆转录并进行微阵列分析确定76个差异表达miRNA,进一步通过神经网络数据挖掘算法识别10个差异表达miRNA,其中组合miR-29、miR-181a和miR-652经过二进制逻辑回归可较好区分癌症组和对照组,准确率0.8,经RQ-PCR检测这三个miRNA在乳腺癌中低表达(Identification andValidationofOncologic miRNABiomarkers for LuminalA-like Breast Cancer.McDermottAM,PLoS ONE,2014,9(1):e87032.doi:10.1371/journal.pone.0087032)。但是人工神经网络需要大量的参数,如网络结构、权值和阈值的初始值。由于不能观察中间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度,并且人工神经网络算法学习时间长,有时甚至可能达不到学习的目的。
技术实现思路
有鉴于此,本专利技术的目的在于通过对癌症大数据和癌症miRNA表达谱的数据挖掘,找出数据中蕴含的隐藏信息,找到miRNA序列、二级结构和表达量的关系,提供一种新的视角分析发现肿瘤诊断标记物。为了实现上述专利技术目的,本专利技术提供以下技术方案:本专利技术提供了一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法,包括以下步骤:1)提供肿瘤病人的miRNA数据,所述miRNA数据包括肿瘤病人正常组织的miRNA数据和肿瘤组织的miRNA数据;2)将所述步骤1)得到的正常组织的miRNA数据和肿瘤组织的miRNA数据分别进行过滤;3)将所述步骤2)过滤后的miRNA数据分别做归一化处理,得到标准化的正常组织和肿瘤组织的miRNA数据;4)将所述步骤3)得到的标准化的miRNA数据与下载的miRNA成熟序列进行序列比对,分别得到miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵;5)将所述步骤4)得到的三个矩阵作为网络中节点间的距离,构建miRNA表达量网络、miRNA结构网络和miRNA序列网络;6)比较所述步骤5)中的三个网络的平均边覆盖和度分布,得到相似二级结构的miRNA表达量相似;7)采用随机森林模型对所述步骤2)中得到相同病人的正常组织的miRNA数据和肿瘤组织的miRNA的表达量选择最佳子集,计算最佳子集的miRNA的MIC值(Maximal Information coefficient,MIC);8)基于所述步骤7)的最佳子集miRNA的MIC值分别构建正常组织和肿瘤组织的miRNA网络;9)计算在正常组织和肿瘤组织的miRNA网络中同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤miRNA标志物的种类。10)采用最小网格聚类方法对所述步骤4)得到的miRNA序列比对值矩阵进行聚类,将序列相似的miRNA聚为一类,根据已知的miRNA的功能推知具有相同序列的miRNA的功能,从而验证筛选出肿瘤miRNA标志物的种类是否准确。优选的,所述步骤2)中过滤具体为挑选得到相同病人的正常组织的miRNA数据和肿瘤组织的miRNA数据去除miRNA表达量低于5%的数据。优选的,所述步骤3)中归一化处理是采用Z标准化处理;Z标准化公式如式I所示为:优选的,所述步骤5)中构建miRNA表达量网络、miRNA结构网络和miRNA序列网络的方法具体为:miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵,作为网络中miRNA结点间的距离,miRNA表达量网络分为三个部分构建,第一部分所选阈值为25,第二部分所选阈值为33,第三部分所选阈值为161;所述miRNA结构网络分为三部分构建,第一部分所选阈值为16,第二部分所选阈值为27,第三部分所选阈值为49;所述miRNA序列网络一次构建完成。优选的,所述步骤6)中平均边覆盖是采用以下方法进行计算:将复杂网络之间的平均边覆盖<o>定义为: < o > = 1 k Σ i , j o l , j , o i , j = 1 M Σ α a i , j [ α ] ]]>其中,k为至少在一个网络层中出现的结点对数;ai,j=1表示结点和结点之间有连边,ai,j=0表示结点和结点之间无连边;<0>=1时表示当且仅当所有网络连边都相同。优选的,所述步骤7)中选择最佳子集后还包括:十折交叉对数据进行验证。优选的,所述步骤7)中选择最佳子集是采用随机森林模型分类器对miRNA表达量进行过滤和封装,对正常组本文档来自技高网
...
一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法

【技术保护点】
一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法,其特征在于,包括以下步骤:1)提供肿瘤病人的miRNA数据,所述miRNA数据包括肿瘤病人正常组织的miRNA数据和肿瘤组织的miRNA数据;2)将所述步骤1)得到的正常组织的miRNA数据和肿瘤组织的miRNA数据分别进行过滤;3)将所述步骤2)过滤后的肿瘤组织的miRNA数据分别做归一化处理,得到标准化的肿瘤组织的miRNA数据;4)将所述步骤3)得到的标准化的miRNA数据与下载的miRNA成熟序列进行序列比对,分别得到miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵;5)将所述步骤4)得到的三个矩阵分别作为网络中节点间的距离,分别构建miRNA表达量网络、miRNA结构网络和miRNA序列网络;6)比较所述步骤5)中的三个网络的平均边覆盖和度分布,得到具有相似二级结构的miRNA,所述相似二级结构的miRNA的表达量也相似;7)采用随机森林模型对所述步骤2)中得到相同病人的正常组织的miRNA数据和肿瘤组织的miRNA的表达量选择最佳子集,计算最佳子集的miRNA的MIC值;8)基于所述步骤7)的最佳子集miRNA的MIC值分别构建正常组织和肿瘤组织的miRNA网络;9)计算在正常组织和肿瘤组织的miRNA网络中同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤miRNA标志物的种类。10)采用最小网格聚类方法对所述步骤4)得到的miRNA序列比对值矩阵进行聚类,将序列相似的miRNA聚为一类,根据已知的miRNA的功能推知具有相同序列的miRNA的功能,从而验证筛选出肿瘤miRNA标志物的种类是否准确。...

【技术特征摘要】
1.一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法,其特征在于,包括以下步骤:1)提供肿瘤病人的miRNA数据,所述miRNA数据包括肿瘤病人正常组织的miRNA数据和肿瘤组织的miRNA数据;2)将所述步骤1)得到的正常组织的miRNA数据和肿瘤组织的miRNA数据分别进行过滤;3)将所述步骤2)过滤后的肿瘤组织的miRNA数据分别做归一化处理,得到标准化的肿瘤组织的miRNA数据;4)将所述步骤3)得到的标准化的miRNA数据与下载的miRNA成熟序列进行序列比对,分别得到miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵;5)将所述步骤4)得到的三个矩阵分别作为网络中节点间的距离,分别构建miRNA表达量网络、miRNA结构网络和miRNA序列网络;6)比较所述步骤5)中的三个网络的平均边覆盖和度分布,得到具有相似二级结构的miRNA,所述相似二级结构的miRNA的表达量也相似;7)采用随机森林模型对所述步骤2)中得到相同病人的正常组织的miRNA数据和肿瘤组织的miRNA的表达量选择最佳子集,计算最佳子集的miRNA的MIC值;8)基于所述步骤7)的最佳子集miRNA的MIC值分别构建正常组织和肿瘤组织的miRNA网络;9)计算在正常组织和肿瘤组织的miRNA网络中同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤miRNA标志物的种类。10)采用最小网格聚类方法对所述步骤4)得到的miRNA序列比对值矩阵进行聚类,将序列相似的miRNA聚为一类,根据已知的miRNA的功能推知具有相同序列的miRNA的功能,从而验证筛选出肿瘤miRNA标志物的种类是否准确。2.根据权利要求1所述的方法,其特征在于,所述步骤2)中过滤具体为从挑选的相同病人的正常组织的miRNA数据和肿瘤组织的miRNA数据中去除miRNA表达量低于5%的数据。3.根据权利要求1所述的方法,其特征在于,所述步骤3)中归一化处理是采用Z标准化处理;Z标准化公式如式I所示:4.根据权利要求1所述的方法,其特征在于,所述步骤5)中构建miRNA表达量网络、miRNA结构网络和miRNA序列网络的方法具体为:miRNA表达水平之间的欧式距离矩阵、二级结构间的差异矩阵和miRNA的序列比对值矩阵,作为网络中miRNA结点间的距离,miRNA表达量网络分为三个部分构建,第一部分所选阈值为25,第二部分所选阈值为33,第三部分所选阈值为161;所述miRNA结构网络分为三部分构建,第一部分所选阈值为16,第二部分所选阈值为27,第三部分所选阈值为49;所述miRNA序列网络一次构建完成。5.根据权利要求1所述的方法,其特征在于,所述步骤6)中平均边覆盖是采用以下方法进行计算:将复杂网络之间的平均边覆盖<o>定义为: < o > = 1 k Σ i , j o l , j , o i , j = 1 M Σ α a i , j [ α ] ]]>其中,k为至少在一个网络层中出现的结点对数;ai,j=1表示结点和结点之间有连边,ai,j=0表示结点和结点之间无连边;<0>=1时表示当且仅当所有网络连边都相同。6.根据权利要求1所述的方法,其特征在于,所述步骤7)中选择最佳子集后还包括:十折交叉验证对数据进行验证。7.根据权利要求1所述的方法,其特征在于,所述步骤7)中选择最佳子集是采用随机森林模型分类器对miRNA表达量进行过滤和封装,对正常组织和肿瘤组织的miRNA表达量进行特征选择。8.根据权利要求1所述的方法,其特征在于,所述步骤7)中最佳子集miRNA的MIC值采用如下计算方法得到:首先定义两个联合随机变量(X,Y)特征矩阵的分布规律的性质,然后使用G(k,l)表示;k,l均为正整数...

【专利技术属性】
技术研发人员:赵毅张阳丛威荟
申请(专利权)人:赵毅
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1