高通量测序数据的平行比较分析制造技术

技术编号:15864294 阅读:52 留言:0更新日期:2017-07-23 09:18
本发明专利技术涉及高通量测序数据的平行比较分析。通过利用相对于参考基因组序列的子串的已知位置递增地同步序列串,在子串的比对基础上构成差异序列对象。然后生成输出文件,其包含关于仅参考基因组的相关变化。

【技术实现步骤摘要】
高通量测序数据的平行比较分析本申请是分案申请,原申请的申请日为2011年12月20日,申请号为201180076272.4(PCT/US2011/001996),专利技术名称为“半目半目:高通量测序数据的平行比较分析”。与其他申请的关系本申请涉及2011年11月18日提交的名为“半目半目(Bambam):高通量测序数据的平行比较分析”的美国非临时专利申请序号13/373,550,并且要求其优先权,在此将其全部内容引入作为参考。本专利技术部分利用下列美国联邦机构的资金进行:国家癌症研究所编号1U24CA143858-01。美国联邦政府对本专利技术拥有一定权利。
本专利技术涉及处理个体或对象生物途径的数据和鉴定其组分从而确定个体或对象是否具有病症或疾病危险的方法。本方法可用作利用SAM/BAM格式的文件中存储的短读取比对对个体或对象的肿瘤和种系测序数据进行比较分析的工具。数据处理方法计算总拷贝数和等位基因特异的拷贝数,使等位基因失衡区域的种系序列分阶,发现体细胞和种系序列变体,并推断体细胞和种系的结构变化区域。本专利技术还涉及利用本方法诊断对象是否易患癌症、自身免疫性疾病、细胞周期疾病或其他疾病。
技术介绍
现代癌症治疗的核心前提是,患者诊断、预后、危险评估和治疗响应预期可通过癌症分类得到提高,癌症分类基于肿瘤基因组、转录和外因基因组特征,同时还有诊断时收集的相关临床信息(例如,患者病史、肿瘤组织学及阶段)以及随后的临床后续数据(例如,治疗方案和疾病复发事件)。在测序中最新进展已经导致用于个体生物体和生物体组织以及用于不同群体和甚至物种的大量基因组和亚基因组数据。这促使利用基因组、转录和/或表观遗传信息的各种疾病、预后/危险评估,和甚至治疗响应预测的基于基因组的个性化治疗或诊断的发展。由于基因组数据的量已达到显著水平,计算要求和有意义的输出生成的方式已经变得具有挑战性。例如,多个肿瘤和匹配的正常全基因组序列现在可用自像“癌症基因组图谱”(TCGA)的项目,并且提取相关的信息很困难。其通过需要高的基因组测序的覆盖(例如,大于30倍)被进一步混合以获得统计学上相关数据。即使在压缩形式中,基因组信息可经常达到数以百计的千兆字节,并且比较多个这种大型数据集的分析在大多数情况下是缓慢的且难以管理,但是,是绝对必要的,以便发现发生在相对于第二样品的任何给定的样品的许多基因组变化。乳腺癌在临床上和基因组方面是异质的并由几种病理和分子方面不同的亚型组成。在各亚型中,患者对常规和目标治疗剂的响应不同,推动了标记物引导的治疗策略的发展。乳腺癌细胞系的集合反映出多种在肿瘤中发现的分子亚型和途径,表明用候选治疗性化合物治疗细胞系可引导鉴定分子亚型、途径和药物响应之间的关联。在77种治疗性化合物的测试中,几乎全部药物在这些细胞系中显示差异响应并约一半显示亚型、途径和/或基因组异常-特异性响应。这些观察结果暗示了可指示临床药物调配的响应和抗性机制以及有效组合药物的尝试。目前需要提供可用于表征、诊断、治疗和确定疾病和病症结果的方法。
技术实现思路
本专利技术人已经发现比较基因组分析的各种系统和方法,其允许以不需要进行处理的多个规模文件的形式以及避免生成具有相对于基因组畸变的相对低的信息密度的相似的规模文件的形式迅速产生有意义的输出。在本专利技术主题的一个方面中,得到差异基因序列对象的方法包括提供对遗传数据库的访问的步骤,该遗传数据库存储(a)表示第一组织的第一基因序列串和(b)表示第二组织的第二基因序列串,其中第一和第二序列串具有多个相应的子串。在另一个步骤中,提供对与遗传数据库连接的序列分析引擎的访问,且仍在另一个步骤中,序列分析引擎通过利用多个相应的子串中至少一个的已知位置递增地同步第一和第二序列串来产生局部比对。在进一步步骤中,序列分析引擎利用局部比对生成局部比对中第一与第二序列串之间的局部差异串;并且序列分析引擎利用局部差异串更新差异序列数据库中的差异基因序列对象。最优选地,第一和第二基因序列串分别表示第一和第二组织至少10%且更通常地至少50%的基因组、转录组或蛋白质组,或第一和第二组织的甚至基本上整个基因组、转录组或蛋白质组。应该进一步理解,第一和第二组织来自相同的生物实体(例如,患者、健康的个体、细胞系、干细胞、实验动物模型、重组细菌细胞或病毒)。另一方面,第一组织可以是健康组织,而第二个可以是患病组织(例如,肿瘤组织)。在进一步考虑的方面,相应的子串包含纯合或杂合等位基因。还通常优选地,同步步骤包括比对多个子串中的至少一个,其中比对是基于第一串中的先验已知位置。可选地或另外地,同步步骤包括基于包含多个子串中至少一个的已知位置的已知参考串(例如,共有序列)比对多个子串中的至少一个,和/或同步步骤包括在具有小于多个子串的至少一个的长度的长度的窗口内比对多个子串中的至少一个。当需要时,设想的方法还可以另外包括通过第一序列串的整个长度迭代地递增同步第一和第二序列串的步骤。在特别优选的方法中,差异基因序列对象表示至少一条染色体的多个局部差异串,表示第一组织的基本上整个基因组的多个局部差异串,和/或包括含有描述差异基因序列对象的元数据的属性。特别优选的属性是第一和第二组织的至少一个的状态。例如,该状态可以包括第一和第二组织的至少一个的生理状态(例如,肿瘤生长、凋亡、分化状态、组织年龄和治疗响应性),或遗传状态(例如,倍体、基因拷贝数、重复拷贝数、倒置、缺失、病毒基因的插入、体细胞突变、种系突变、结构重排、换位,和杂合性缺失)。合适的状态还包括组织内与信号传导途径(例如,生长因子信号转导途径、转录因子信号传导途径、细胞凋亡途径、细胞周期途径和激素响应途径)关联的途径模型信息。仍然进一步设想地,基因序列对象包括文件,其最优选地符合标准格式(例如,SAM/BAM格式)。在本专利技术主题的另一个方面中,本专利技术人还设想了提供医疗保健服务的方法。在该方法中,提供对信息地连接到医疗记录存储设备的分析引擎的访问,其中存储设备存储患者的差异基因序列对象。在另一个步骤中,利用患者差异基因序列对象中存在的局部差异串或多个局部差异串的丛,分析引擎产生特定患者的数据集,并基于特定患者的数据集,分析引擎还产生特定患者的指示。在特别优选的方法中,医疗记录存储设备被配置为智能卡并由患者携带,和/或被健康护理人员远程访问。最通常地,患者的差异基因序列对象包括至少两条染色体或基本上患者整个基因组的的多个局部差异串。可选地,或另外地,患者的差异基因序列对象还包括表示至少两种组织类型或相同组织的至少两个时间间隔结果的多个局部差异串(例如,相同组织的时间间隔结果得自治疗开始之前和之后)。进一步通常优选地,特定患者的指示为诊断、预后、治疗结果预期、治疗策略建议,和/或处方。在本专利技术主题的又另一个方面中,本专利技术人设想了分析群体的方法,该方法包括在群体医疗记录数据库中获得和存储多个差异基因序列对象的步骤,其中该记录数据库信息地连接到分析引擎。在另一个步骤中,分析引擎鉴定多个差异基因序列对象中的多个局部差异串丛,从而产生丛记录,并且分析引擎利用丛记录生成群体分析记录。在该方法中,一般设想的是,群体包括多个血亲,和/或特征在于共享至少一个共同特征(例如,暴露于病原、暴露于毒性剂、健康史、治疗史、治疗成功本文档来自技高网
...
高通量测序数据的平行比较分析

【技术保护点】
一种基因组差异序列分析系统,包括:存储患者肿瘤的肿瘤基因组序列和患者健康组织的种系基因组序列的序列数据库;和序列分析引擎,其与序列数据库连接并且包括存储软件指令的有形的、非临时性的计算机可读存储器和至少一个处理器,其中在执行软件指令时,处理器可配置:以从所述序列数据库获得表示至少部分的肿瘤基因组序列的肿瘤串和表示至少部分的种系基因组序列的种系串,其中所述肿瘤串和所述种系串彼此重叠在至少一个基因组位置处;以产生局部差异串,其包括在至少一个重叠基因组位置处的所述肿瘤串和所述种系串之间的差异,其中所述局部差异串包含蛋白质编码序列;和以在差异序列数据库中,基于所述局部差异串更新差异序列对象,其中所述差异序列对象与所述患者相关联。

【技术特征摘要】
2011.11.18 US 13/373,5501.一种基因组差异序列分析系统,包括:存储患者肿瘤的肿瘤基因组序列和患者健康组织的种系基因组序列的序列数据库;和序列分析引擎,其与序列数据库连接并且包括存储软件指令的有形的、非临时性的计算机可读存储器和至少一个处理器,其中在执行软件指令时,处理器可配置:以从所述序列数据库获得表示至少部分的肿瘤基因组序列的肿瘤串和表示至少部分的种系基因组序列的种系串,其中所述肿瘤串和所述种系串彼此重叠在至少一个基因组位置处;以产生局部差异串,其包括在至少一个重叠基因组位置处的所述肿瘤串和所述种系串之间的差异,其中所述局部差异串包含蛋白质编码序列;和以在差异序列数据库中,基于所述局部差异串更新差异序列对象,其中所述差异序列对象与所述患者相关联。2.权利要求1所述的系统,其中所述肿瘤基因组序列包含所述患者肿瘤的多肽编码序列。3.权利要求2所述的系统,其中所述肿瘤串包含所述患者肿瘤的所述多肽编码序列。4.权利要求1所述的系统,其中所述种系基因组序列包含所述患者健康组织的多肽编码序列。5.权利要求5所述的系统,其中所述种系串包含所述患者肿瘤的多肽编码序列。6.权利要求1所述的系统,其中所述差异序列对象包含多肽编码序列。7.权利要求1所述的系统,其中所述差异序列对象包含所述肿瘤串和所述种系串之间的蛋白质编码序列的差异。8.权利要求1所述的系统,其中所述差异序列对象包含所述肿瘤串和所述种系串之间的核酸序列的差异。9.权利要求8所述的系统,其中所述差异核酸序列包含DNA序列或RNA序列。10.权利要求1所述的系统,其中所述序列分析引擎还可配置以基于所述差异序列对象来计算相对于参考...

【专利技术属性】
技术研发人员:J·Z·森波D·豪斯勒
申请(专利权)人:加利福尼亚大学董事会
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1