【技术实现步骤摘要】
一种基于基因交互网络聚类和群稀疏学习的表达数量性状与CNV关联的方法
[0001]本专利技术涉及生物信息学中的数据挖掘领域,具体涉及一种基于基因交互网络聚类和群稀疏学习的表达数量性状与CNV关联的方法。
技术介绍
[0002]下一代测序(NGS)技术允许研究人员描绘特定肿瘤甚至泛癌方式的突变景观。在肿瘤的发展过程中,基因组中积累了不同类型的突变,包括单核苷酸多态性(single nucleotide polymorphisms,SNPs)、染色体片段、拷贝数变异(copy number variations,CNVs)、基因融合等。
[0003]由于不同的肿瘤亚型可能采用不同的免疫逃避途径,导致不同的亚型具有不同的耐药性、病理和药物应答。致病基因和免疫基因的表达在不同的阶段或水平上受到调控,如表达数量性状位点(eQTL)、CNV、表观遗传修饰和调控qtl(regqtl)。例如,Ratnapriya(“Retinal transcriptome and eqtl analyses identify genes asso ...
【技术保护点】
【技术特征摘要】
1.一种基于基因交互网络聚类和群稀疏学习的分析表达数量性状与CNV关联的方法,其特征在于实施步骤为:(1)收集乳腺癌FPKM RNA
‑
seq信息、乳腺癌的CNV数据、乳腺癌高置信度风险基因信息;(2)进行基于秩的方法对乳腺癌拷贝数变异(CNV)和mRNA数据进行预处理;(3)建立基于蛋白质相互作用知识和信号通路的基因
‑
基因相互作用网络,利用网络聚类算法生成高密度子网络;(4)构建基于群稀疏学习模型来描述子网与目标基因的mRNA表达之间的关联关系,使用均方根误差(RMSE)进行性能评价,采用k
‑
fold折交叉验证算法进行交叉验证,使用Speraman相关研究方法,并结合通路富集分析对基因表达与CNV进行相关性分析。2.根据权利要求1所述的一种基于基因交互网络聚类和群稀疏学习的分析表达数量性状与CNV关联的方法,其特征在于数据收集阶段:(1)收集TCGA提供的乳腺癌FPKM RNA
‑
seq信息;(2)收集TCGA提供的乳腺癌的CNV数据;(3)由于以上两部分数据存在重合,我们只保留CNV和mRNA数据集中的重叠样本;(4)搜集前50个乳腺癌高置信度风险基因信息;3.根据权利要求1所述的一种基于基因交互网络聚类和群稀疏学习的分析表达数量性状与CNV关联的方法,其特征在于对CNV和mRNA数据进行预处理:(1)通过对数比率(LR)定义为log2(观测强度/参考强度)确定基因拷贝数状态;(2)设计一种基于秩的算法来消除单样本水平上的不合标准的CNV。对每个样本的基因进行检测,当基因表达在前50%且CNV&g...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。