用于基因组分析的方法和系统技术方案

技术编号:15190798 阅读:93 留言:0更新日期:2017-04-19 23:50
本公开内容提供了用于将导致表型的基因组变体按优先级排序的方法和系统。该方法包括使用变体优先化排序分析,并结合生物医学本体,使用精细的再排名方法根据表型信息将这些变体再排名。该方法可用于任何基因组学研究和诊断;例如,罕见病和常见病基因发现、肿瘤生长突变检测、药物响应者研究、代谢研究、个性化医疗、农业分析以及百年分析(centennial analysis)。

【技术实现步骤摘要】
【国外来华专利技术】交叉引用本申请要求于2014年1月14日提交的美国临时专利申请序列号61/927,459的权益,其在此通过引用全文并入本文。联邦政府资助研究的声明本专利技术是根据基金号R44HG3667、R43LM10874、R43HG6579和R44HG6579在政府支持下完成的。政府对本专利技术享有一定的权利。
技术介绍
个人基因组序列的人工分析是一项庞大、劳动密集型的任务。虽然在脱氧核糖核酸(DNA)序列读序比对和变体判定中已取得了很大的进展,但对于个人基因组序列的自动化分析而言几乎没有方法。事实上,自动标注变体、组合来自多个项目的数据以及恢复标注变体的子集以用于多种多样下游分析的能力正成为关键的分析瓶颈。研究者们现在面对的是许多全基因组序列,据估计,其中每一个均含有约4百万个变体。这产生了将变体有效地按优先级排序的需要,以便有效且高效地为进一步的下游分析如外部序列验证、额外的生化验证实验、进一步的目标验证(如在典型的Biotech/Pharma发现工作中日常进行的)或一般性地为额外变体验证分配资源。这样的相关变体也被称为导致表型的遗传变体。
技术实现思路
根据当前方法和系统的至少一些局限性,在此认识到了对改善的基因组分析方法和系统的需要。本公开内容提供了可自动标注变体、组合来自多个项目的数据并恢复标注变体的子集以用于多种多样下游分析的方法和系统。本文提供的方法和系统可将变体有效地按优先级排序,以便有效且高效地为进一步的下游分析如外部序列验证、额外的生化验证实验、进一步的目标验证和额外的变体验证分配资源。在一方面,本公开内容提供了一种用于鉴别导致表型的遗传变体的计算机系统,其包含具有多种导致表型的基因或遗传变体的计算机存储器;以及与该计算机存储器和数据库耦合的计算机处理器,其中该计算机处理器被编程为用以(i)鉴别第一组导致表型的基因或遗传变体,该第一组导致表型的基因或遗传变体在所述计算机存储器中的所述多种导致表型的基因或遗传变体中;(ii)基于数据库中的一个或多个生物医学本体(ontology)中所驻留的知识,将所述第一组导致表型的基因或遗传变体按优先级排序;(iii)自动鉴别并报告第二组导致表型的基因或遗传变体,其中相比于与所述第一组导致表型的基因或遗传变体相关联的优先级排名,与所述第二组基因和遗传变体中的基因或遗传变体相关联的优先级排名得到改善。在一些实施方案中,所述数据库与所述计算机系统是分开的。在一些实施方案中,所述系统进一步包含用于获得受试者的遗传信息的通信接口。在一些实施方案中,所述计算机处理器被进一步编程以使用所述第二组导致表型的基因或遗传变体来分析所述受试者的遗传信息,从而鉴别所述受试者中的表型或疾病状况。在一些实施方案中,所述计算机处理器被进一步编程以生成指示所述受试者中的表型或疾病状况的报告。在一些实施方案中,所述计算机处理器被进一步编程以生成包含所述受试者中疾病诊断的报告和/或为所述受试者推荐治疗性干预。在一些实施方案中,提供所述报告以供在电子显示器上的用户界面上显示。在一些实施方案中,所述计算机处理器被进一步编程以在用户界面上提供所述第二组导致表型的基因或遗传变体。在另一方面,本公开内容提供了一种用于鉴别导致表型的遗传变体的方法,其包括(a)提供与包含多种导致表型的基因或遗传变体的计算机存储器耦合的计算机处理器,其中该计算机处理器被编程为用以在所述多种导致表型的基因或遗传变体中鉴别成组的导致表型的基因或遗传变体并将其按优先级排序;(b)使用所述计算机处理器鉴别第一组导致表型的基因或遗传变体,该第一组导致表型的基因或遗传变体在所述计算机存储器中的所述多种导致表型的基因或遗传变体中;(c)基于一个或多个生物医学本体中所驻留的知识,将所述第一组导致表型的基因或遗传变体按优先级排序;以及(d)自动鉴别并在用户界面上报告第二组导致表型的基因或遗传变体,其中相比于与所述第一组导致表型的基因或遗传变体相关联的优先级排名,与所述第二组基因和遗传变体中的基因或遗传变体相关联的优先级排名得到改善。在一些实施方案中,所述方法进一步包括为了改善准确性,使用编程的计算机处理器将个人基因组数据、基因功能和疾病信息与个体的表型或疾病描述整合,以鉴别导致表型的变体或基因(Phevor)。在一些实施方案中,所述方法进一步包括使用使信息跨越本体和在本体之间传播(propagate)的算法。在一些实施方案中,所述方法进一步包括基于基因功能、疾病和表型知识将在第一组基因或遗传变体中鉴别的损伤基因或遗传变体准确地重新按优先级排序。在一些实施方案中,所述方法进一步包括并入单个个体的基因组谱,其中该遗传谱包含单核苷酸多态性、一个或多个基因的组、外显子组或基因组、一起分析的一个或多个个体的基因组谱或来自一个家族的个体的基因组谱。在一些实施方案中,所述方法改善了对呈现确定的疾病表型的个体的诊断准确性。在一些实施方案中,所述方法改善了对具有新型或非典型疾病表现的患者的诊断准确性。在一些实施方案中,所述方法进一步包括并入本体中的潜在信息,以发现新的疾病基因或致病等位基因。在一些实施方案中,所述第一组导致表型的基因或遗传变体通过以下步骤来鉴别:使用所述计算机处理器通过以下方式将遗传变体按优先级排序:组合(1)变体优先化信息,(2)在所述一个或多个生物医学本体中所驻留的知识,和(3)加和程序;以及自动鉴别并报告所述导致表型的基因或遗传变体。在一些实施方案中,经测序的个体的表型描述包含在所述加和程序中。在一些实施方案中,所述变体优先化信息至少部分地基于选自氨基酸置换(AAS)、剪接位点、启动子、蛋白质结合位点、增强子和阻抑物的序列特征。在一些实施方案中,所述变体优先化信息至少部分地基于选自VAAST、pVAAST、SIFT、ANNOVAR、负荷测试和序列保守性工具的方法。在一些实施方案中,所述一个或多个生物医学本体包括基因本体、人类表型本体和哺乳动物表型本体中的一种或多种。在一些实施方案中,所述加和程序包括本体的遍历、信息跨越本体的传播以及遍历和传播的一种或多种结果的组合,以产生体现给定基因与用户描述的表型或基因功能具有相关性的先验可能性的基因得分。在一些实施方案中,采用变异蛋白质影响得分和/或频率信息执行所述变体优先化信息。在一些实施方案中,该影响得分选自SIFT、Polyphen、GERP、CADD、PhastCons和PhyloP。在一些实施方案中,经测序的个体的表型描述来源于由医疗保健专业人员所做的体检。在一些实施方案中,经测序的个体的表型描述存储在电子医疗健康记录中。在一些实施方案中,所述变体在包含一个或多个基因或基因片段、一个或多个染色体或染色体片段、一个或多个外显子或外显子片段、一个或多个内含子或内含子片段、一个或多个调节序列或调节序列片段或其组合的基因组区域中按优先级排序。在一些实施方案中,所述生物医学本体是含有关于基因功能、过程和位置的信息的基因本体,含有关于人类疾病的信息的疾病本体;含有关于非人生物体中的突变表型的知识以及关于人类及其他生物体中旁系同源基因和同源基因及其突变体表型的信息的表型本体。在一些实施方案中,所述经测序的个体是不同的物种。在一些实施方案中,所述表型为疾病。在一些实施方案中,所述表型描述中包括受影响的和本文档来自技高网...
用于基因组分析的方法和系统

【技术保护点】
一种用于鉴别导致表型的遗传变体的计算机系统,其包含:具有多种导致表型的基因或遗传变体的计算机存储器;以及与所述计算机存储器和所述数据库耦合的计算机处理器,其中所述计算机处理器被编程为用以(i)鉴别第一组导致表型的基因或遗传变体,该第一组导致表型的基因或遗传变体在所述计算机存储器中的所述多种导致表型的基因或遗传变体中;(ii)基于数据库中的一个或多个生物医学本体中所驻留的知识,将所述第一组导致表型的基因或遗传变体按优先级排序;(iii)自动鉴别并报告第二组导致表型的基因或遗传变体,其中相比于与所述第一组导致表型的基因或遗传变体相关联的优先级排名,与所述第二组基因和遗传变体中的基因或遗传变体相关联的优先级排名得到改善。

【技术特征摘要】
【国外来华专利技术】2014.01.14 US 61/927,4591.一种用于鉴别导致表型的遗传变体的计算机系统,其包含:具有多种导致表型的基因或遗传变体的计算机存储器;以及与所述计算机存储器和所述数据库耦合的计算机处理器,其中所述计算机处理器被编程为用以(i)鉴别第一组导致表型的基因或遗传变体,该第一组导致表型的基因或遗传变体在所述计算机存储器中的所述多种导致表型的基因或遗传变体中;(ii)基于数据库中的一个或多个生物医学本体中所驻留的知识,将所述第一组导致表型的基因或遗传变体按优先级排序;(iii)自动鉴别并报告第二组导致表型的基因或遗传变体,其中相比于与所述第一组导致表型的基因或遗传变体相关联的优先级排名,与所述第二组基因和遗传变体中的基因或遗传变体相关联的优先级排名得到改善。2.如权利要求1所述的系统,其中所述数据库与所述计算机系统是分开的。3.如权利要求1所述的系统,其进一步包含用于获得受试者的遗传信息的通信接口。4.如权利要求3所述的系统,其中所述计算机处理器被进一步编程以使用所述第二组导致表型的基因或遗传变体来分析所述受试者的所述遗传信息,从而鉴别所述受试者中的表型或疾病状况。5.如权利要求4所述的系统,其中所述计算机处理器被进一步编程以生成指示所述受试者中的所述表型或疾病状况的报告。6.如权利要求4所述的系统,其中所述计算机处理器被进一步编程以生成包含所述受试者中疾病诊断的报告和/或为所述受试者推荐治疗性干预。7.如权利要求5或6所述的系统,其中提供所述报告以供在电子显示器上的用户界面上显示。8.如权利要求1所述的系统,其中所述计算机处理器被进一步编程以在用户界面上提供所述第二组导致表型的基因或遗传变体。9.一种用于鉴别导致表型的遗传变体的方法,其包括:(a)提供与包含多种导致表型的基因或遗传变体的计算机存储器耦合的计算机处理器,其中所述计算机处理器被编程为用以在所述多种导致表型的基因或遗传变体中鉴别成组的导致表型的基因或遗传变体并将其按优先级排序;(b)使用所述计算机处理器鉴别第一组导致表型的基因或遗传变体,该第一组导致表型的基因或遗传变体在所述计算机存储器中的所述多种导致表型的基因或遗传变体中;(c)基于一个或多个生物医学本体中所驻留的知识,将所述第一组导致表型的基因或遗传变体按优先级排序;以及(d)自动鉴别并在用户界面上报告第二组导致表型的基因或遗传变体,其中相比于与所述第一组导致表型的基因或遗传变体相关联的优先级排名,与所述第二组基因和遗传变体中的基因或遗传变体相关联的优先级排名得到改善。10.如权利要求9所述的方法,其进一步包括为了改善准确性,使用所述编程的计算机处理器将个人基因组数据、基因功能和疾病信息与个体的表型或疾病描述整合,以鉴别导致表型的变体或基因(Phevor)。11.如权利要求9或10所述的方法,其进一步包括使用使信息跨越本体和在本体之间传播的算法。12.如权利要求9或10所述的方法,其进一步包括基于基因功能、疾病和表型知识将在所述第一组基因或遗传变体中鉴别的损伤基因或遗传变体准确地重新按优先级排序。13.如权利要求9或10所述的方法,其进一步包括并入单个个体的基因组谱,其中所述遗传谱包含单核苷酸多态性、一个或多个基因的组、外显子组或基因组、一起分析的一个或多个个体的基因组谱或来自一个家族的个体的基因组谱。14.如权利要求9或10所述的方法,其中所述方法改善了对呈现确定的疾病表型的个体的诊断准确性。15.如权利要求9或10所述的方法,其中所述方法改善了对具有新型或非典型疾病表现的患者的诊断准确性。16.如权利要求9或10所述的方法,其进一步包括并入本体中的潜在信息,以发现新的疾病基因或致病等位基因。17.如权利要求9或10所述的方法,其中所述第一组导致表型的基因或遗传变体通过以下步骤来鉴别:使用所述计算机处理器通过以下方式将遗传变体按优先级排序:组合(1)变体优先化信息,(2)在所述一个或多个生物医学本体中所驻留的所述知识,和(3)加和程序;以及自动鉴别并报告所述导致表型的基因或遗传变体。18.如权利要求17所述的方法,其中经测序的个体的表型描述包含在所述加和程序中。19.如权利要求18所述的方法,其中所述变体优先化信息至少部分地基于选自氨基酸置换(AAS)、剪接位点、启动子、蛋白质结合位点、增强子和阻抑物的序列特征。20.如权利要求18所述的方法,其中所述变体优先化信息至少部分地基于选自VAAST、pVAAST、SIFT、ANNOVAR、负荷测试和序列保守性工具的方法。21.如权利要求18所述的方法,其中所述一个或多个生物医学本体包括基因本体、人类表型本体和哺乳动物表型本体中的一种或多种。22.如权利要求18所述的方法,其中所述加和程序包括所述本体的遍历、信息跨越所述本体的传播以及遍历和传播的一种或多种结果的组合,以产生体现给定基因与用户描述的表型或基因功能具有相关性的先验可能性的基因得分。23.如权利要求18所述的方法,其中采用变异蛋白质影响得分和/或频率信息执行所述变体优先化信息。24.如权利要求23所述的方法,其中所述影响得分选自SIFT、Polyphen、GERP、CADD、PhastCons和PhyloP。25.如权利要求18所述的方法,其中所述经测序的个体的所述表型描述来源于由医疗保健专业人员所做的体检。26.如权利要求18所述的方法,其中所述经测序的个体的所述表型描述存储在电子医疗健康记录中。27.如权利要求18所述的方法,其中所述变体在包含一个或多个基因或基因片段、一个或多个染色体或染色体片段、一个或多个外显子或外显子片段、一个或多个内含子或内含子片段、一个或多个调节序列或调节序列片段或其组合的基因组区域中按优先级排序。28.如权利要求18所述的方法,其中所述生物医学本体是含有关于基因功能、过程和位置的信息的基因本体,含有关于人类疾病的信息的疾病本体;含有关于非人生物体中的突变表型的知识以及关于人类及其他生物体中旁系同源基因和同源基因及其突变体表型的信息的表型本体。29.如权利要求18所述的方法,其中所述经测序的个体是不同的物种。30.如权利要求18所述的方法,其中所述表型为疾病。31.如权利要求18所述的方法,其中所述表型描述中包括受影响的和未受影响的个体的家族表型信息。32.如权利要求18所述的方法,其进一步包括包含成组的家族基因组序列。33.如权利要求32所述的方法,其进一步包括并入已知的遗传模式。34.如权利要求17或18所述的方法,其进一步包括包含成组的受影响的和未受影响的基因组序列。35.如权利要求17或18所述的方法,其中所述加和程序是本体传播,并且其中鉴别某些本体中的种子节点,每个种子节点被指定一个大于零的值,并且使该信息跨越所述本体传播。36.如权利要求35所述的方法,其进一步包括从每个种子节点向其子节点行进,其中当穿过与相邻节点的缘线时,将先前节点的当前值除以常数值。37.如权利要求36所述的方法,其中所述加和程序是这样的,当传播完成时,通过除以所述本体中所有节点之和将每个节点的值再归一化为零到一之间的值。38.如权利要求37所述的方法,其中:(i)标注至一个本体的每个基因接受与该基因所标注至的所述本体中任何节点的最高得分相对应的得分;并且(ii)对每个本体重复(i),其中标注至多个本体的基因具有来自每个本体的得分,并且其中将来自所述多个本体的得分合计以产生每个基因的最终总得分,并将其再次再归一化为零到一之间的值。39.如权利要求18所述的方法,其中所述经测序的个体具有来自一种或多种癌组织和种系组织的遗传序列。40.如权...

【专利技术属性】
技术研发人员:马克·辛格尔顿马丁·里斯卡伦·埃尔贝克马克·严德尔
申请(专利权)人:欧米希亚公司犹他大学
类型:发明
国别省市:美国;US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1