一种利用机器学习预测复杂疾病易感位点的方法技术

技术编号:16547133 阅读:160 留言:0更新日期:2017-11-11 11:53
本发明专利技术公开了一种利用机器学习预测复杂疾病易感位点的方法,包括以下步骤:(1)收集已知的复杂疾病易感位点作为机器学习模型的阳性集,根据阳性集推测与复杂疾病不相关的位点作为阴性集,并进行表观调控元件的注释;(2)利用机器学习建立复杂疾病表观调控模型;(3)根据建立的模型,对全基因组范围内全部的位点就进行预测,得到最终的预测结果作为复杂疾病的潜在易感位点。本发明专利技术方法将表观遗传学信息和基因组DNA信息结合起来,通过机器学习提取表观调控元件特征,进而在全基因组范围内预测复杂疾病的易感位点,可显著提高找到的易感位点所解释的遗传力,为后续设计药物和疾病检测提供了潜在的靶标。

A method for predicting complex disease susceptibility loci using machine learning

The present invention discloses a learning prediction method for complex disease susceptibility loci using machine, which comprises the following steps: (1) the positive set of complex disease susceptibility loci as a collection of known machine learning model, according to the relevant positive set conjecture and complex disease sites as a negative set, and epigenetic regulatory elements note; (2) learning to build complex disease epigenetic regulation model using the machine; (3) according to the model, all the sites of genome wide prediction, get the final prediction results as potential susceptibility loci for complex diseases. The method of the invention of epigenetic information DNA and genomic information together, extract the epigenetic regulation of component characteristics through machine learning, and to predict the susceptibility of complex diseases in whole genome within the scope of the site, can significantly improve the heritability found susceptibility loci explained, provides a potential target for drug design and subsequent detection disease.

【技术实现步骤摘要】
一种利用机器学习预测复杂疾病易感位点的方法
本专利技术涉及复杂疾病易感位点预测
,具体涉及一种利用机器学习预测复杂疾病易感位点的筛选方法。
技术介绍
近年来,全基因组关联分析成为揭示复杂疾病易感位点(Singlenucleotidepolymorphism,SNP)最热且有效的研究方法。利用这种方法,现已有两千余篇论文发表在国际高水平杂志上,成功鉴定了近万个复杂疾病易感位点。尽管全基因组关联分析成果颇丰,却远未达到科学家的预想——找到大部分疾病易感位点。对于特定的复杂疾病,已报道的疾病易感位点累积起来解释的疾病遗传变异不到15%,尚有大量未知的遗传因素,即“丢失的遗传力”亟待挖掘。这是所有复杂疾病遗传学研究中面临的共同问题,反应出我们对现有数据资源的利用和挖掘不足。为了寻找未知的遗传致病因素,现阶段迫切需要提出切实可行的新方法、新手段,深入、系统地挖掘人类基因组数据,其结果有助于揭示复杂疾病的发病机理、靶向药物的设计和研发以及临床早期筛查和个体化防治等方面。基因组包括两类遗传信息:即DNA序列遗传信息和表观遗传学信息。目前,表观遗传学的研究成果已经应用于一些疾病的研究和治疗中。因此,在进行疾病易感位点预测时,非常有必要纳入表观遗传学的信息。已有的基于基因组表观调控元件特征预测复杂疾病易感位点的方法多种多样,多数是预测外显子区域或特定基因座的遗传变异。然而非编码区的多态性同样能够影响下游基因的表达,从而揭示复杂疾病的发病机制。因此十分有必要对全基因组范围内的位点进行筛选,找到与复杂疾病相关的位点。目前,已有多个数据库揭示了基因组表观遗传学信息,但是数以亿计的遗传标记和多维的元件信息给遗传位点的预测带来了巨大的挑战。机器学习是近20多年兴起的一门多领域交叉学科,为了充分且有效地利用生物学数据,生物学与机器学习的交叉研究日益活跃。因此,基于基因组表观调控元件特征,利用机器学习的方法预测全基因组范围内的复杂疾病易感位点十分必要。
技术实现思路
为了克服已有技术的缺陷,本专利技术的目的在于提供一种利用机器学习的方法,结合表观调控元件特征的复杂疾病易感遗传标记的预测方法,将表观遗传学信息和基因组DNA信息结合起来,通过机器学习提取表观调控元件特征,进而在全基因组范围内预测复杂疾病的易感位点,可显著提高所解释的遗传力,为后续设计药物和疾病检测提供了潜在的靶标。为了实现上述目的,本专利技术的技术方案是这样实现的:一种利用机器学习预测复杂疾病易感位点的方法,包括以下步骤:P1:收集已知的复杂疾病易感位点作为机器学习模型的阳性集,根据阳性集推测与复杂疾病不相关的位点作为阴性集,并进行表观调控元件的注释;P2:利用机器学习建立复杂疾病表观调控模型;P3:根据建立的模型,对全基因组范围内全部位点就进行预测,得到最终的预测结果作为复杂疾病的潜在易感位点。所属步骤P1具体包括:P11:利用公共数据库GWAScatalog、PheGenI和Pubmed相关文献收集某一疾病的已知易感SNP,并利用千人基因组计划公布的基因型数据计算与已知易感位点高连锁的SNP作为阳性集;P12:对于阴性集,我们筛选全基因组范围内满足如下条件的SNP组成阴性集合:A.与阳性集合内SNP一定距离范围内;B.与其对应阳性集合内SNP的最小等位基因频率之差小于0.05;C.独立于阳性集合内所有SNP(r2<0.1);P13:从UCSC和Roadmap数据库获取基因组所有表观调控元件信息,包括转录因子结合位点、组蛋白修饰位点和染色质分割状态;从GTEx数据库获取相关组织基因表达数量性状基因座信息;从ANNOVAR数据库获取序列保守性特征,每种调控元件储存为一个文本文件;P14:利用获取的表观调控元件信息,根据基因组的物理位置对上述阳性集和阴性集内的SNP进行注释。对应原则为SNP如果与某个调控元件的屋里位置有重叠,则认为该SNP被这一调控元件注释到。所述步骤P2具体包括:P21:针对上述注释后的结果,利用R中的corrplot包计算调控元件之间的相关性并将高相关的调控元件随机去除,随后将注释结果随机分为训练集和测试集两部分,其中训练集占总集合的80%,测试集占总集合的20%,此步进行5折交叉验证;P22:用不同机器学习算法对P21中所得训练集注释结果矩阵建立模型,并用测试集判断模型的可靠性。评价指标包括灵敏性sensitivity、特异性specificity、精度precision、准确度accuracy和F1分数,计算公式如下:Sensitivity=TP/P=TP/(TP+FN)Specificity=TN/N=TN/(TN+FP)Precision=TP/P’=TP/(TP+FP)Accuracy=(TP+TN)/(P+N)F1=2×TP/(2×TP+FP+FN)其中,TP为真阳性,FN为假阴性,TN为真阴性,FP为假阳性;P23:根据P22所述模型评价指标,利用元件特征选择对模型进行优化。具体步骤如下:通过模型获得调控元件对模型的重要性排序;根据元件的重要性构建多个特征子集,集合中的特征数从1增加至最大;根据模型评价指标确定模型的最优子集,用以预测新的复杂疾病易感遗传位点。所述步骤P3具体包括:P31:通过P2步骤获得机器学习模型的最优子集,利用子集中包含的调控元件对全基因组范围内全部位点进行注释;P32:根据建立的最优模型,对全基因组范围内全部位点进行预测,最终得到与阳性调控元件注释相似的位点,即为复杂疾病的潜在易感位点。本专利技术所述基于基因组表观调控元件特征,利用机器学习预测复杂疾病易感位点的筛选方法,适用于各种复杂疾病,例如各种癌症、内分泌疾病、心血管疾病、代谢类疾病、免疫类疾病等。本专利技术提了一种利用机器学习、结合表观调控元件特征的复杂疾病易感遗传标记的预测方法,将表观遗传学信息和基因组DNA信息结合起来,通过机器学习提取表观调控元件特征,进而在全基因组范围内预测复杂疾病的易感位点,可显著提高所解释的遗传力,为后续设计药物和疾病检测提供了潜在的靶标。附图说明图1为本专利技术提供的利用机器学习预测复杂疾病易感位点筛选方法的流程图。具体实施方式下面结合附图对本专利技术的内容作进一步详细说明。实例:以复杂疾病II型糖尿病为例,利用本专利技术的方法,进行II型糖尿病易感位点的预测,以下进行详细说明。如图1所示,本专利技术提供一种基于基因组表观调控元件特征,利用机器学习预测复杂疾病易感位点筛选方法,包括以下步骤P1-P3。P1:收集已知的II型糖尿病易感位点作为机器学习模型的阳性集,并进行表观调控元件的注释。具体包括:从公共数据库GWAScatalog、PheGenI以及Pubmed中的相关文献收集II型糖尿病已知的易感SNP,共65个,作为阳性集。之后利用千人基因组计划公布的基因型数据计算与这65个易感位点高连锁的SNPs作为阳性集的补充,共计1769个。同时筛选符合P12中所述条件的SNPs作为阴性集合。从UCSC、Roadmap、GTEx和ANNOVAR数据库中获取与II型糖尿病相关的表观调控元件信息,去除高相关元件之后,包括33种DNA超敏感位点,202种转录因子结合位点,315种组蛋白修饰位点,639种染色质分割状态,17种基因表达数量性状基因座信息和本文档来自技高网
...
一种利用机器学习预测复杂疾病易感位点的方法

【技术保护点】
一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征在于,包括以下步骤:P1:收集已知的复杂疾病易感位点作为机器学习模型的阳性集,根据阳性集推测与复杂疾病不相关的位点作为阴性集,并进行表观调控元件的注释;P2:利用机器学习建立复杂疾病表观调控模型;P3:根据建立的模型,对全基因组范围内全部的位点就进行预测,得到最终的预测结果作为复杂疾病的潜在易感位点。

【技术特征摘要】
1.一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征在于,包括以下步骤:P1:收集已知的复杂疾病易感位点作为机器学习模型的阳性集,根据阳性集推测与复杂疾病不相关的位点作为阴性集,并进行表观调控元件的注释;P2:利用机器学习建立复杂疾病表观调控模型;P3:根据建立的模型,对全基因组范围内全部的位点就进行预测,得到最终的预测结果作为复杂疾病的潜在易感位点。2.根据权利要求1所述的一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征在于,所述步骤P1具体包括以下步骤:P11:利用公共数据库GWAScatalog、PheGenI和Pubmed相关文献收集某一复杂疾病的已知易感SNP,并利用千人基因组计划公布的基因型数据计算与已知易感位点高连锁的SNP作为阳性集;P12:对于阴性集,筛选全基因组范围内满足如下条件的SNP组成阴性集合:A.与阳性集合内SNP一定距离范围内;B.与其对应阳性集合内SNP的最小等位基因频率之差小于0.05;C.独立于阳性集合内所有SNP(r2<0.1);选取完毕之后,阳性集和阴性集的比例为1:20;P13:从UCSC和Roadmap数据库获取基因组所有表观调控元件信息,包括转录因子结合位点、组蛋白修饰位点和染色质分割状态;从GTEx数据库获取相关组织基因表达数量性状基因座信息;从ANNOVAR数据库获取序列保守性特征,每种调控元件储存为一个文本文件;P14:利用获取的表观调控元件信息,根据基因组的物理位置对上述阳性集和阴性集内的SNP进行注释,对应原则为SNP如果与某个调控元件的屋里位置有重叠,则认为该SNP被这一调控元件注释到。3.根据权利要求1所述的一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征...

【专利技术属性】
技术研发人员:董珊珊杨铁林姚石陈一霄郭燕张钰洁
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1