遗传变体-表型分析系统和使用方法技术方案

技术编号:20023467 阅读:34 留言:0更新日期:2019-01-06 03:21
公开了用于生成和分析遗传变体‑表型关联结果的方法和系统。

【技术实现步骤摘要】
【国外来华专利技术】遗传变体-表型分析系统和使用方法相关专利申请的交叉引用本申请要求2016年3月29日提交的美国临时申请第62/314,684号、2016年7月15日提交的美国临时申请第62/362,660号以及2017年3月6日提交的美国临时申请第62/467,547号的优先权,这些临时申请均通过引用整体并入本文。序列表的引用2017年3月29日以文本文件提交的、命名为“37595_0009P1_Sequence_Listing.txt”的、创建于2017年3月29日并且大小为6,470字节的序列表特此依据37C.F.R.§1.52(e)(5)通过引用并入。
技术介绍
将高通量DNA测序应用于人类队列已经实现了从开发罕见和常见遗传变异的综合目录(GenomesProject,C.等,Nature2010;467:1061;TennessenJA等,Science2012;337:64)到阐明孟德尔疾病中新型因果基因(ChongJX等,AmJHumGenet2015;97:199;YangY等,JAMA,2014;312:1870)的遗传发现,并且已发现一些罕见的变体与常见的复杂疾病有关(DoR等,Nature2015;518:102;HolmH等,NatGenet2011;43:316;SteinbergS等,NatGenet,2015;47:445)。最新的一些发现受助于对罕见的“人类敲除基因”的发现(MacArthurDG等,Science2012;335:823;SulemP等,NatGenet2015;47:448;LimET等,PLoSGenet2014;10:e1004494)。在一些情况下,将序列数据库与流行病学数据(LiAH等,NatGenet2015;47:640)或结构化临床记录中捕获的临床表型(SulemP等,NatGenet2015;47:448;LimET等,PLoSGenet2014;10:e1004494)联系起来以利于发现变体与表型之间的关联。(GudbjartssonDF等,NatGenet2015;47:第435-44页;ConsortiumUK等,Nature2015;526:82)。这些努力促进发现了一些治疗靶标。例如,已经鉴定了与有利的脂质谱和冠心病风险降低相关的PCSK9基因(Kathiresan,S.和C.MyocardInfarction,NEnglJMed2008;358:2299)和APOC3基因(PollinTI等,Science2008;322:1702)中的功能丧失(LoF)突变,并且这些发现促进了靶向那些基因的产物的治疗剂的开发。然而,需要进一步阐明影响健康和疾病的遗传因素以及基于这种信息开发靶向治疗剂,以推动精准医学的实施,并鉴定更多用于药理学干预的生物靶标。鉴定推定的生物靶标的一种方法是在可获得遗传变体和表型信息的一大群受试者中在统计学上将感兴趣变体与表型相关联(或反之亦然)(例如,WellcomeTrustCaseControlConsortium,Nature2007;447:661;CohortsforHeartandAgingResearchinGenomicEpidemiologyConsortium,Circulation:CardiovascularGenetics2009;2:73)。然而,这些努力通常未利用足够数量的受试者或对遗传变异足够深的表征来发现罕见的、高影响力的功能丧失变体,这至少部分是由于统计检力不足以及可由其指定临床相关推定靶标的遗传变体-表型关联数据不足。此外,尽管生物制药行业的研发投资增加,但超过90%进入I期临床试验的分子未能证明足够的安全性和有效性以获得监管批准。大多数失败发生在II期临床试验中,约一半的失败是由于缺乏功效,约四分之一的失败是由于毒性。失败的原因包括临床前模型可能是临床获益的不良预测模型。因此,本领域需要一种集成电子系统,其支持(1)成千上万受试者的遗传变体和表型数据的可扩展存储,(2)遗传变体-表型关联的可扩展、自动化分析,以及(3)遗传变体-表型关联结果的自动计算分析。
技术实现思路
应理解,下面的概述和下面的详述都仅为示例性和说明性而非限制性的。公开了用于生成和分析遗传变体-表型关联结果的方法和系统。本方法和系统提供了一种集成电子系统,其包括遗传数据部件、表型数据部件、自动化遗传变体-表型关联结果数据部件、自动化结果数据分析部件,和有利于查看遗传变体数据、表型数据、关联结果数据和谱系的界面。本文公开了用于生物学数据存储、处理、分析、输出和/或可视化的方法和系统。本方法和系统利于生物药物靶标的指定识别,其随后可以在功能模型例如动物模型中进行研究。据信,人类遗传证据支持识别的生物药物靶标实质上比人类遗传证据支持识别的靶标更有可能在临床试验中成功。本方法和系统用作新型遗传变体-表型关联发现的主要引擎,促进罕见的有害和保护性等位基因(包括纯合状态的等位基因)的聚集,促进大型病例对照研究和极端/精确表型的调查研究,促进人类敲除基因发现,促进通过对感兴趣受试者的基因型首次查询和随访以及对那些感兴趣受试者的深度表型分析来验证调查结果,并促进人类临床试验中的药物遗传学研究。公开了一种系统,其包括:遗传数据部件,其配置为用于功能性注释由序列数据获得的一种或多种遗传变体;表型数据部件,其配置为用于确定由所述遗传数据部件获得其序列数据并进行分析的一个或多个患者的一种或多种表型;遗传变体-表型关联数据部件,其配置为用于确定所述一种或多种遗传变体与所述一种或多种表型之间的一种或多种关联;和数据分析部件,其配置为用于生成、存储来自所述遗传变体-表型关联数据部件的所述一种或多种关联并为其编索引。公开了一种系统,其包括:与所述表型数据部件耦合的表型数据界面;与所述遗传数据部件耦合的遗传变体数据界面;与所述遗传数据部件耦合的谱系界面;与所述表型数据部件和所述数据分析部件耦合的结果界面。公开了一种经由所公开的系统(例如,经由图形用户界面)查看遗传变体数据的方法。公开了一种经由所公开的系统(例如,经由图形用户界面)查看表型数据的方法。公开了一种经由所公开的系统(例如,经由图形用户界面)查看遗传变体-表型关联结果的方法。公开了一种经由所公开的系统由遗传数据生成谱系的方法。公开了一种生成遗传变体-表型关联结果的方法,其包括:从本专利技术系统的遗传数据部件和表型数据部件访问数据,并在统计学上将一种或多种基因或遗传变体与一种或多种表型相关联,从而获得一种或多种遗传变体-表型关联结果。公开了一种方法,其包括:接收对一个或多个标准的选择;确定与所述一个或多个标准相关的一条或多条去识别医疗记录;将所述一条或多条去识别医疗记录分组为第一结果;并且显示适用于所述第一结果的所述一个或多个标准的第一分布。公开了一种方法,其包括:接收来自外显子组测序数据的多个变体;评估所述多个变体的功能影响;为所述多个变体中的每一个生成效应预测元素;并且将所述效应预测元素汇编成包括所述多个变体的可搜索数据库。公开了一种方法,其包括:向遗传数据部件查询与感兴趣基因相关的变体;将所述变体传到表型数据部件,作为对拥有所述变体的队列的查询;将所述变体和队列传到遗传变体-表型关联数本文档来自技高网
...

【技术保护点】
1.一种系统,其包括:遗传数据部件,其配置为用于功能性注释由序列数据获得的一种或多种遗传变体;表型数据部件,其配置为用于确定由所述遗传数据部件获得其序列数据并进行分析的一个或多个患者的一种或多种表型;遗传变体‑表型关联数据部件,其配置为用于确定所述一种或多种遗传变体与所述一种或多种表型之间的一种或多种关联;和数据分析部件,其配置为用于生成、存储来自所述遗传变体‑表型关联数据部件的所述一种或多种关联并为其编索引。

【技术特征摘要】
【国外来华专利技术】2016.03.29 US 62/314,684;2016.07.15 US 62/362,660;1.一种系统,其包括:遗传数据部件,其配置为用于功能性注释由序列数据获得的一种或多种遗传变体;表型数据部件,其配置为用于确定由所述遗传数据部件获得其序列数据并进行分析的一个或多个患者的一种或多种表型;遗传变体-表型关联数据部件,其配置为用于确定所述一种或多种遗传变体与所述一种或多种表型之间的一种或多种关联;和数据分析部件,其配置为用于生成、存储来自所述遗传变体-表型关联数据部件的所述一种或多种关联并为其编索引。2.根据权利要求1所述的系统,其中所述一种或多种遗传变体的所述功能性注释产生遗传变体数据。3.根据权利要求2所述的系统,其中评估所述遗传变体数据中的一种或多种变体对转录物/基因的功能影响,并识别潜在的功能丧失性(pLoF)候选物。4.根据权利要求1所述的系统,其中所述遗传数据部件包括变体识别部件,所述变体识别部件由修整部件、比对部件和变体调用部件组成。5.根据权利要求4所述的系统,其中所述变体识别部件配置为评价所述序列数据的质量并且去除、修整或校正所述序列数据中不满足定义的质量标准的读段。6.根据权利要求1所述的系统,其中所述遗传数据部件包括由功能预测部件组成的变体注释部件。7.根据权利要求6所述的系统,其中所述变体注释部件配置为确定并为所述一种或多种遗传变体分配功能信息。8.根据权利要求7所述的系统,其中所述变体注释部件配置为基于所述变体与基因组中的编码序列的关系以及所述一种或多种遗传变体可以改变所述编码序列并影响基因产物的方式来对所述一种或多种遗传变体中的每一种进行分类。9.根据权利要求1所述的系统,其中所述确定由所述遗传数据部件获得其序列数据并进行分析的一个或多个患者的一种或多种表型生成表型数据。10.根据权利要求1所述的系统,其中所述表型包括生物体中特定性状可观测到的物理或生物化学表达。11.根据权利要求1所述的系统,其中所述表型数据部件包括二元表型部件和定量表型部件。12.根据权利要求11所述的系统,其中所述二元表型部件配置为用于分析去识别医疗信息以识别所述去识别医疗信息中分配给患者的一个或多个代码。13.根据权利要求12所述的系统,其中所述二元表型部件配置为用于:识别所述一个或多个代码存在或不存在;确定与所述一个或多个代码相关的表型;并且通过唯一标识符为与所述去识别医疗信息相关联的患者分配所述表型。14.根据权利要求11所述的系统,其中所述定量表型部件配置为用于分析去识别医疗信息以识别连续变量并基于所识别的连续变量分配表型。15.根据权利要求14所述的系统,其中所述连续变量包括生理测量值,所述生理测量值包括一系列值中的一个或多个值。16.根据权利要求11所述的系统,其中所述定量表型部件配置为用于:识别所述连续变量;将所识别的连续变量应用于预定分类量表;并且通过唯一标识符为与所述去识别医疗信息相关联的患者分配表型。17.根据权利要求11所述的系统,其中所述分类表型部件配置为用于分析去识别医疗信息以识别给定定量表型的范围。18.根据权利要求11所述的系统,其中所述临床记事表型部件包括自然语言处理(NLP)表型部件,其配置为用于分析去识别医疗信息以识别用于为经由唯一标识符与所述去识别医疗信息相关联的患者分配表型的术语。19.根据权利要求1所述的系统,其中所述遗传变体-表型关联数据部件包括计算部件和质量部件。20.根据权利要求19所述的系统,其中所述计算部件配置为用于执行一项或多项统计检验。21.根据权利要求20所述的系统,其中所述一项或多项统计检验包括对于二元表型的哈迪-温伯格平衡(HWE)分析、费希尔精确检验、BOLT-LMM分析、逻辑回归和线性混合模型中的一项或多项。22.根据权利要求20所述的系统,其中所述一项或多项统计检验包括对于定量表型的线性回归、线性混合模型、ANOVA中的一项或多项。23.根据权利要求19所述的系统,其中所述质量部件配置为识别系统性偏误的证据。24.根据权利要求23所述的系统,其中所述质量部件配置为确定分位数-分位数(Q-Q)图。25.根据权利要求1所述的系统,其还包括:与所述表型数据部件耦合的表型数据界面;与所述遗传数据部件耦合的遗传变体数据界面;与所述遗传数据部件耦合的谱系界面;和与所述表型数据部件和所述数据分析部件耦合的结果界面。26.根据权利要求2572所述的系统,其中所述表型数据界面包括表型数据查看器、查询/可视化部件和数据交换界面中的一种或多种。27.根据权利要求26所述的系统,其中所述表型数据查看器包括图形用户界面,所述图形用户界面配置为允许用户将一个或多个查询输入所述查询/可视化部件。28.根据权利要求27所述的系统,其中所述查询/可视化部件配置为查询存储在非循环图中的表型数据。29.根据权利要求28所述的系统,其中所述数据交换界面配置为接收来自所述遗传变体数据界面、所述谱系界面和所述结果界面的输出,以用作所述表型数据界面的输入并提供所述表型数据界面的输出,以用作所述遗传变体数据界面、所述谱系界面和所述结果界面的输入。30.根据权利要求25所述的系统,其中所述遗传变体数据界面包括遗传变体数据查看器、查询/可视化部件和/或数据交换界面中的一种或多种。31.根据权利要求30所述的系统,其中所述遗传变体数据查看器包括图形用户界面,所述图形用户界面配置为允许用户将一个或多个查询输入所述查询/可视化部件。32.根据权利要求31所述的系统,其中所述查询/可视化部件配置为查询存储在所述遗传数据部件中的一个或多个VCF文件中的遗传变体数据。33.根据权利要求32所述的系统,其中所述遗传数据部件进一步配置为:接收多个VCF文件;确定所述多个VCF文件中共同的一个或多个变体位点;对于所述多个VCF文件中的每一个,生成标识所述一个或多个变体位点存在或不存在的索引;对于所述多个VCF文件中的每一个,将多个属性编码为单一值;并且生成包括所述索引和所编码的多个变量的最终VCF文件,其中所述查询/可视化部件配置为查询存储在所述最终VCF文件中的遗传变体数据。34.根据权利要求32所述的系统,其中所述数据交换配置为接收来自所述表型数据界面、所述谱系界面和所述结果界面的输出,以用作所述遗传变体数据界面的输入并提供所述遗传变体数据界面的输出,以用作所述表型数据界面、所述谱系界面和所述结果界面的输入。35.根据权利要求25所述的系统,其中所述谱系界面配置为重建遗传数据集内的谱系。36.根据权利要求25所述的系统,其中所述谱系界面包括谱系数据查看器、查询/可视化部件和/或数据交换界面中的一种或多种。37.根据权利要求36所述的系统,其中所述谱系数据查看器可包括图形用户界面,所述图形用户界面配置为允许用户将一个或多个查询输入所述查询/可视化部件。38.根据权利要求37所述的系统,其中所述查询/可视化部件可配置为查询存储在所述遗传数据部件中的一个或多个VCF文件中的遗传变体数据。39.根据权利要求38所述的系统,其中所述数据交换配置为接收来自所述表型数据界面、所述遗传变体数据界面和所述结果界面的输出,以用作所述谱系界面的输入并提供所述谱系界面的输出,以用作所述表型数据界面、所述遗传变体数据界面和所述结果界面的输入。40.根据权利要求25所述的系统,其中所述结果界面配置为访问存储在所述数据分析部件和所述表型数据分析部件中的数据。41.根据权利要求25所述的系统,其中所述结果界面配置为查看所述数据分析部件存储的一个或多个关联结果并与之交互。42.根据权利要求25所述的系统,其中所述结果界面包括结果查看器、查询/可视化部件和/或数据交换界面中的一种或多种。43.根据权利要求42所述的...

【专利技术属性】
技术研发人员:J·雷德O·戈特斯曼L·赫碧嘉B·卡耶斯J·史泰博E·麦克斯韦
申请(专利权)人:瑞泽恩制药公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1