一种利用机器学习预测复杂疾病易感位点的方法技术

技术编号：16547133 阅读：160 留言：0更新日期：2017-11-11 11:53

本发明专利技术公开了一种利用机器学习预测复杂疾病易感位点的方法，包括以下步骤：(1)收集已知的复杂疾病易感位点作为机器学习模型的阳性集，根据阳性集推测与复杂疾病不相关的位点作为阴性集，并进行表观调控元件的注释；(2)利用机器学习建立复杂疾病表观调控模型；(3)根据建立的模型，对全基因组范围内全部的位点就进行预测，得到最终的预测结果作为复杂疾病的潜在易感位点。本发明专利技术方法将表观遗传学信息和基因组DNA信息结合起来，通过机器学习提取表观调控元件特征，进而在全基因组范围内预测复杂疾病的易感位点，可显著提高找到的易感位点所解释的遗传力，为后续设计药物和疾病检测提供了潜在的靶标。

A method for predicting complex disease susceptibility loci using machine learning

The present invention discloses a learning prediction method for complex disease susceptibility loci using machine, which comprises the following steps: (1) the positive set of complex disease susceptibility loci as a collection of known machine learning model, according to the relevant positive set conjecture and complex disease sites as a negative set, and epigenetic regulatory elements note; (2) learning to build complex disease epigenetic regulation model using the machine; (3) according to the model, all the sites of genome wide prediction, get the final prediction results as potential susceptibility loci for complex diseases. The method of the invention of epigenetic information DNA and genomic information together, extract the epigenetic regulation of component characteristics through machine learning, and to predict the susceptibility of complex diseases in whole genome within the scope of the site, can significantly improve the heritability found susceptibility loci explained, provides a potential target for drug design and subsequent detection disease.

全部详细技术资料下载

【技术实现步骤摘要】
一种利用机器学习预测复杂疾病易感位点的方法
本专利技术涉及复杂疾病易感位点预测
，具体涉及一种利用机器学习预测复杂疾病易感位点的筛选方法。
技术介绍
近年来，全基因组关联分析成为揭示复杂疾病易感位点(Singlenucleotidepolymorphism,SNP)最热且有效的研究方法。利用这种方法，现已有两千余篇论文发表在国际高水平杂志上，成功鉴定了近万个复杂疾病易感位点。尽管全基因组关联分析成果颇丰，却远未达到科学家的预想——找到大部分疾病易感位点。对于特定的复杂疾病，已报道的疾病易感位点累积起来解释的疾病遗传变异不到15％，尚有大量未知的遗传因素，即“丢失的遗传力”亟待挖掘。这是所有复杂疾病遗传学研究中面临的共同问题，反应出我们对现有数据资源的利用和挖掘不足。为了寻找未知的遗传致病因素，现阶段迫切需要提出切实可行的新方法、新手段，深入、系统地挖掘人类基因组数据，其结果有助于揭示复杂疾病的发病机理、靶向药物的设计和研发以及临床早期筛查和个体化防治等方面。基因组包括两类遗传信息：即DNA序列遗传信息和表观遗传学信息。目前，表观遗传学的研究成果已经应用于一些疾病的研究和治疗中。因此，在进行疾病易感位点预测时，非常有必要纳入表观遗传学的信息。已有的基于基因组表观调控元件特征预测复杂疾病易感位点的方法多种多样，多数是预测外显子区域或特定基因座的遗传变异。然而非编码区的多态性同样能够影响下游基因的表达，从而揭示复杂疾病的发病机制。因此十分有必要对全基因组范围内的位点进行筛选，找到与复杂疾病相关的位点。目前，已有多个数据库揭示了基因组表观遗传学信息，但是数以...
一种利用机器学习预测复杂疾病易感位点的方法

【技术保护点】
一种利用机器学习预测复杂疾病易感位点的筛选方法，其特征在于，包括以下步骤：P1：收集已知的复杂疾病易感位点作为机器学习模型的阳性集，根据阳性集推测与复杂疾病不相关的位点作为阴性集，并进行表观调控元件的注释；P2：利用机器学习建立复杂疾病表观调控模型；P3：根据建立的模型，对全基因组范围内全部的位点就进行预测，得到最终的预测结果作为复杂疾病的潜在易感位点。

【技术特征摘要】
1.一种利用机器学习预测复杂疾病易感位点的筛选方法，其特征在于，包括以下步骤：P1：收集已知的复杂疾病易感位点作为机器学习模型的阳性集，根据阳性集推测与复杂疾病不相关的位点作为阴性集，并进行表观调控元件的注释；P2：利用机器学习建立复杂疾病表观调控模型；P3：根据建立的模型，对全基因组范围内全部的位点就进行预测，得到最终的预测结果作为复杂疾病的潜在易感位点。2.根据权利要求1所述的一种利用机器学习预测复杂疾病易感位点的筛选方法，其特征在于，所述步骤P1具体包括以下步骤：P11：利用公共数据库GWAScatalog、PheGenI和Pubmed相关文献收集某一复杂疾病的已知易感SNP，并利用千人基因组计划公布的基因型数据计算与已知易感位点高连锁的SNP作为阳性集；P12：对于阴性集，筛选全基因组范围内满足如下条件的SNP组成阴性集合：A.与阳性集合内SNP一定距离范围内；B.与其对应阳性集合内SNP的最小等位基因频率之差小于0.05；C.独立于阳性集合内所有SNP(r2<0.1)；选取完毕之后，阳性集和阴性集的比例为1:20；P13：从UCSC和Roadmap数据库获取基因组所有表观调控元件信息，包括转录因子结合位点、组蛋白修饰位点和染色质分割状态；从GTEx数据库获取相关组织基因表达数量性状基因座信息；从ANNOVAR数据库获取序列保守性特征，每种调控元件储存为一个文本文件；P14：利用获取的表观调控元件信息，根据基因组的物理位置对上述阳性集和阴性集内的SNP进行注释，对应原则为SNP如果与某个调控元件的屋里位置有重叠，则认为该SNP被这一调控元件注释到。3.根据权利要求1所述的一种利用机器学习预测复杂疾病易感位点的筛选方法，其特征...

【专利技术属性】
技术研发人员：董珊珊，杨铁林，姚石，陈一霄，郭燕，张钰洁，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人