人类基因组常见拷贝数变异用于癌症易感风险评估制造技术

技术编号:14707680 阅读:200 留言:0更新日期:2017-02-25 20:33
本发明专利技术是要对人类受试者的癌症易感性进行预测,通过机器学习,比较受试者遗传基因拷贝数变异(“CNV”)与同人种诊断性常见CNV特征系列。该CNV特征系列必须选自同人种非癌患者遗传DNA样本(简称“非癌DNA”样本)和癌患者遗传DNA样本(简称“癌DNA”样本)的CNVs,可以相关法、频率法或分类法选择,再应用朴素贝叶斯分类法鉴定,以便有效地用来分辨癌患者遗传DNA与非癌患者遗传DNA。在此基础上,受试者的癌症易感性预测可以应用统计方法进行,例如朴素贝叶斯方法。另外,使用诊断性常见CNV特征对受试者的癌症易感性进行预测,可以是针对一般性的癌症易感性,也可以是针对一种或少数特定类型癌症的易感性。

【技术实现步骤摘要】
【国外来华专利技术】背景本专利技术涉及一种基于人类遗传基因组常见拷贝数变异(“CNV”)的方法,用于预测受试者的患癌风险。方法是从同种族DNA样品群中识别常见性遗传CNVs,样本包括非癌患者的非癌组织DNA(简称“非癌DNA”样品)和癌患者的非癌组织DNA(简称“癌DNA”样品);通过机器学习过程及相对比较,识别同族群中分别富集于非癌患者或患癌者的特定CNVs,以制定一组具诊断性的常见CNV特征。继而,将这一组能对“非癌DNA”或“癌DNA”起分类作用的诊断性常见CNVs进行鉴定;经确认后,会用作分析同种族受试者的遗传基因组CNVs,鉴定是否存在一些该组诊断性常见CNV特征,并由此评估受试者的癌症易感水平。无论是非癌患者、癌患者或任何受试者,其基因组DNA中的遗传CNVs,可利用不同方法进行检测,如人类基因组DNA单核苷酸多态性(SNP)微阵列、定量PCR,个人全基因组测序、“WES”外显子组区域测序或“AluScan”基因组区域序列测序,包括Alu转座子之间和/或接近Alu的基因组区域序列。而从任何DNA样品中发现的CNVs,可依据它们的发生频率和统计准则,被分类为“常见性”CNVs或“罕见性”CNVs。迄今,只发现某些“罕见性”遗传CNVs与特定癌症类别相关,但没有任何常见性遗传CNV与癌症关联的信息,可应用于预测癌症易感性。所述方法是需要从非癌患者群组和癌患者群组的非癌组织遗传基因组中,分别鉴定出属“非癌DNA”及“癌DNA”的常见CNVs,再从中选出一组具诊断性的常见CNV特征,用于预测受试者的癌症易感风险。因此,选择过程将运用多种统计方法,以机器学习辅助进行,但并不限于以下方法:(I)相关性特征选择法(CorrelationbasedFeatureSelection;相关法):选择分别与“非癌DNA”或“癌DNA”类别高度关联,但互相之间并不相关的常见性CNVs;如采用WEKA机器学习工具包中的CfsSubsetEval,并配合BestFirst搜寻方法(HallMAandSmithLA,Featuresubsetselection:Acorrelationbasedfilterapproach.InternationalConferenceonNeuralInformationProcessingandIntelligentInformationSystems.NewZealand;1997:8555-858;DagliyanOetal,Optimizationbasedtumorclassificationfrommicroarraygeneexpressiondata.PLoSOne2011,6:e14579)进行特征选择;(II)频率选择法(Frequency-basedMethod;频率法):在选择某一CNV特征时,它的发生频率于“非癌DNA”和“癌DNA”类别之间必须有着显著不同;及(III)分类器选择(Classifier-basedMethod;分类法):利用分类器进行CNV特征分析,列如WEKA机器学习工具包中的ClassifierSubsetEval属性鉴别器和BestFirst搜寻方法(HallMAetal,TheWEKADataMiningSoftware:AnUpdate.SIGKDDExplorations2009,11:10-18)。利用朴素贝叶斯分类法(Bayesclassificationmethod)及接受器操作特性分析(ReceiverOperatingCharacteristic,ROC),以机器学习模式评估诊断性常见CNV特征的分类功能,看是否能有效地将DNA样品识别为“非癌DNA”或“癌DNA”类别。ROC是源于区分雷达信号与噪声,及后在不同临床医学领域中均有应用(ZweigMHandCampbellG.Receiver-operatingcharacteristic(ROC)plots:afundamentalevaluationtoolinclinicalmedicine.ClinicalChemistry1993,39:561-577;ZhouXStatisticalMethodsinDiagnosticMedicine.NewYork,USA;Wiley&Sons2002)。从一特定种族“非癌DNA”和“癌DNA”样品群中,要寻找到一组具诊断性的常见CNV特征,其ROC-AUC值(ROC曲线下面积)必须大于0.5。这表示该特征可作为分类工具,能有效地将DNA样品识别为“非癌DNA”或“癌DNA”类别,预测同族群受试者DNA的癌症易感性。在[0005]中所术的预测方法,原理是:首先要组合一学习群,其中包括标记遗传DNA样品(即样品类别属“非癌DNA”或“癌DNA”是已知的)。然后,从这DNA群选取一组具诊断性的常见CNV特征,用作识别未标记DNA样品(即样品类别属“非癌DNA”或“癌DNA”是未知的),以确定该特征对“非癌DNA”或“癌DNA”的分类成效。经确认后的CNV特征,将用于检测学习群中各遗传DNA样品,是否存在诊断性常见CNVs。最后,利用以下公式计算B值,并按各样品相对B值排名:公式一B为癌症特征性CNV概率[Pr(cancer|features)]和非癌症特征性CNV概率[Pr(noncancer|features)]的比率对数。Pr(cancer|features)是根据所提供CNV数据算出的归属癌类成员的贝叶斯后验概率,而Pr(noncancer|features)是根据所提供CNV数据算出的归属非癌类成员的贝叶斯后验概率;Pr(features|cancer)及Pr(features|noncancer)分别指根据癌及非癌类别成员算出的CNV数据的概率。另外,Pr(cancer)和Pr(noncancer)则分别是学习群中癌样品和非癌样品的先验分布概率。被检测样品会按其B值作预期分类,B>0属于“癌”概率高,B<0属于“非癌”概率高,或B=0为不确定。因此,学习群中的B值刻度排名,“非癌DNA”样品会偏低,相反“癌DNA”则倾向高排名。此特定B值刻度表,将为该人种所有“非癌DNA”和“癌DNA”样品,提供一个B值对照标准。利用这个标准,测试同一人种受试者遗传DNA的拷贝数变异,以确定是否存在B值表中的诊断性常见CNVs,并按公式一,计算受试者的B值,并与学习群中各“非癌DNA”和“癌DNA”样品B值进行比较,评估受试者的患癌风险为高(B值刻度表上高位),中(B值刻度表上中游位置),或低(B值刻度表上低位)。概要本专利技术涉及用于预测人类患癌风险的遗传基因组拷贝数变异(“CNV”)的方法。是对同种族DNA样品群的遗传性常见CNVs进行分析,当中包含非癌患者的非癌组织DNA(称为“非癌DNA”样品)和癌患者的非癌组织DNA(称为“癌DNA”样品);通过机器学习过程,鉴定分别富集于同族群的非癌患者群组和癌患者群组的特定常见CNVs,以制定一组具诊断性的常见CNV特征。继而,测试该组特征能否将“非癌DNA”和“癌DNA”分类;经确实后,将用作识别同族群受试者的遗传基因组CNVs,是否存在一些该组诊断性常见CNV特征,并由此评估本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/27/201580021591.html" title="人类基因组常见拷贝数变异用于癌症易感风险评估原文来自X技术">人类基因组常见拷贝数变异用于癌症易感风险评估</a>

【技术保护点】
一种应用一位受试者遗传基因组中常见拷贝数变异(“CNV”)来评估他/她癌症易感性的方法。此方法是基于受试者的DNA中常见拷贝数变异与一组诊断性常见CNV特征(或标记)之间的比较,该组特征选取自一个DNA样本群的常见CNVs,该样本群包括非癌患者的非癌组织遗传DNA及癌患者的非癌组织遗传DNA,步骤如下:(a)首先,将与受试者同人种的非癌患者(即从没患癌)的非癌组织遗传DNA样本(简称“非癌DNA”样本)和癌患者的非癌组织遗传DNA样本(简称“癌DNA”样本)合拼起来,识别所有常见拷贝数变异(CNV)。(b)从合拼起来的“非癌DNA”和“癌DNA”的常见CNVs当中,选取一组或多组具分类功能的常见CNV特征(或标记),能将DNA样品分辨为“非癌DNA”和“癌DNA”类别。(c)不同的常见CNV特征组别被选定后,会测试它们的分类功能,看能否将“非癌DNA”和“癌DNA”分类。当任何一组常见CNV特征能有效率地将“非癌DNA”和“癌DNA”分类,就可以成为一组具诊断性的常见CNV特征。(d)分析一位受试者的“非癌DNA”和“癌DNA”样本,鉴定该DNA样本中含有那一些同一人种的诊断性常见CNV特征中的CNVs。再依据此资料,使用机器学习过程,预测受试者的患癌风险。...

【技术特征摘要】
【国外来华专利技术】2014.03.20 US 61/968,140;2014.05.08 US 61/990,3891.一种应用一位受试者遗传基因组中常见拷贝数变异(“CNV”)来评估他/她癌症易感性的方法。此方法是基于受试者的DNA中常见拷贝数变异与一组诊断性常见CNV特征(或标记)之间的比较,该组特征选取自一个DNA样本群的常见CNVs,该样本群包括非癌患者的非癌组织遗传DNA及癌患者的非癌组织遗传DNA,步骤如下:(a)首先,将与受试者同人种的非癌患者(即从没患癌)的非癌组织遗传DNA样本(简称“非癌DNA”样本)和癌患者的非癌组织遗传DNA样本(简称“癌DNA”样本)合拼起来,识别所有常见拷贝数变异(CNV)。(b)从合拼起来的“非癌DNA”和“癌DNA”的常见CNVs当中,选取一组或多组具分类功能的常见CNV特征(或标记),能将DNA样品分辨为“非癌DNA”和“癌DNA”类别。(c)不同的常见CNV特征组别被选定后,会测试它们的分类功能,看能否将“非癌DNA”和“癌DNA”分类。当任何一组常见CNV特征能有效率地将“非癌DNA”和“癌DNA”分类,就可以成为一组具诊断性的常见CNV特征。(d)分析一位受试者的“非癌DNA”和“癌DNA”样本,鉴定该DNA样本中含有那一些同一人种的诊断性常见CNV特征中的CNVs。再依据此资料,使用机器学习过程,预测受试者的患癌风险。2.根据权利1所述的方法,利用DNA微阵列技术,例如Affymetrix芯片,进行基因组DNA的CNVs筛选。3.权利要求1的方法,是从全基因组测序获取的基因组DNA序列中识别DNA中的CNVs。4.权利要求3的方法,采用新一代测序技术进行全基因组测序。5.权利要求1的方法,是从新一代测序获取的基因组DNA子集序列中识别DNA中的CNVs。6.权利要求5的方法,基因组DNA子集序列是通过AluScan测序平台获得。7.权利要求1的方法,会使用统计学流程进行常见CNVs鉴定,例如但并不限于GISTIC2.0鉴定法。8.权利要求1的方法,会使用统计学流程进行常见CNVs鉴定,例如但并不限于AluScan...

【专利技术属性】
技术研发人员:薛红丁肖凡曾瑞英
申请(专利权)人:华晶基因技术有限公司
类型:发明
国别省市:中国香港;81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1