确定异质样本的基因组中的变异制造技术

技术编号:10661624 阅读:181 留言:0更新日期:2014-11-19 20:49
在DNA片段被测序并被映射至参考之后,可以对变异区域中的序列的各个假设进行评分以发现哪个/些序列假设更有可能。假设可以包括对于包括该区域中的序列假设的多个等位基因的特定可变分数。可以使用说明相应序列假设中指定的等位基因的分数的概率确定每个假设的似然性。因此,可以通过在优化中明确包括等位基因的可变分数作为参数,探索除了标准纯合和相等杂合(即,细胞中具有A的一个染色体和具有B的一个染色体)之外的其它假设。而且,可以相对于参考为变异确定变异得分。变异得分可以用于确定指示变异识别正确的似然性的变异校准得分。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】在DNA片段被测序并被映射至参考之后,可以对变异区域中的序列的各个假设进行评分以发现哪个/些序列假设更有可能。假设可以包括对于包括该区域中的序列假设的多个等位基因的特定可变分数。可以使用说明相应序列假设中指定的等位基因的分数的概率确定每个假设的似然性。因此,可以通过在优化中明确包括等位基因的可变分数作为参数,探索除了标准纯合和相等杂合(即,细胞中具有A的一个染色体和具有B的一个染色体)之外的其它假设。而且,可以相对于参考为变异确定变异得分。变异得分可以用于确定指示变异识别正确的似然性的变异校准得分。【专利说明】确定异质样本的基因组中的变异 对相关申请的交叉引用 本申请主张于2011年9月16日提交的、题目为"Techniques For Calling Small Variants In Polynucleotide Sequences" 的美国临时申请 No. 61/535, 926、以及于 2012 年3月2日提交的、题目为"Techniques For Small Variant Assembler"的临时申请 No. 61/606, 306的优先权,并且是它们的非临时申请,为了所有的目的通过引用将它们的全 部内容合并在此。 此申请与Carnevali等人于2012年4月29日提交的、题目为"Method And System For Calling Variations In A Sample Polynucleotide Sequence With Respect To A Reference Polynucleotide Sequence" 的共同拥有的美国专利申请 No. 12/770, 089(代理 人案号为92171-002110US)相关,通过引用将其完整的公开内容合并。
本公开一般涉及使用测序技术确定基因组,并且更具体地涉及确定基因组中相对 于另一基因组的变异(variant)。
技术介绍
非肿瘤生物样本主要是二倍体(diploid),其中变异可能发生在染色体的一 个或两者中。传统地,在样本基因组中在特定基因的相对于参考基因组的变异被辨识 (identify)为杂合(heterozygous) (1个突变等位基因(allele)和1个正常等位基因)或 纯合(homozygous) (2个突变等位基因)。然而,在如癌症的肿瘤细胞内往往不是这样。在 细胞分裂期间,突变可能发生,并且作为结果,某些肿瘤细胞的基因组可能不同于其它肿瘤 细胞的基因组。由于对正常DNA的污染和/或肿瘤进化中的多个分支,样本经常展现出这 种异质性(heterogeneity)。样本中的这种异质性可能导致确定样本的基因组中的所有突 变上的困难。 因此,期望提供能更准确地确定展现出异质性的样本的基因组组成、特别是辨识 样本中(例如肿瘤样本)相对于参考基因组或患者的正常基因组的变异的方法、系统和装 置。
技术实现思路
本专利技术的实施方案提供了用于辨识基因组中的变异的技术。例如,在DNA片段已 经被测序并映射(map)至参考基因组以及辨识变异区域(很可能包含变异的区域)之后, 可以对针对变异区域中的序列的各种假设进行评分以发现哪些假设更有可能。针对区域的 序列假设可以包括针对包括该序列假设的多个等位基因的特定可变分数(fraction)。可 以使用说明(account for)相应序列假设中指定的等位基因的分数(例如,20% A:80%B) 的概率来确定针对变异区域的每个序列假设的似然性(likelihood)。因此,可以通过明确 地包括等位基因的可变分数作为优化中的参数来探索除了标准纯合和相等杂合(即,在细 胞中具有A的一个染色体和具有B的一个染色体)之外的其它假设。以此方式,可以更准 确地确定样本细胞的基因组之中展现出异质性的肿瘤样本的基因组组成。 另外,可以为变异确定相对于参考的变异得分。此外,可以使用变异得分来确定 指示变异识别(call)正确的似然性的变异校准得分。可以通过从同一样本的两个测序 运行确定变异、辨识在一个基因组上看到变异、而在第二个基因组上未看到变异的不一致 (discordant)基因位点(loci),来确定这种变异校准得分。然后可以将变异得分分组,并 将似然性分配至变异得分的范围(例如,通过使用涉及对基因组的参考得分分组的迭代过 程)。可以通过比较肿瘤基因组与正常基因组以辨识不一致基因位点,来量化肿瘤中被辨识 为真正的体细胞突变的变异的体细胞得分。可以使用肿瘤基因组为假阳性和正常基因组为 假阴性的似然性来确定变异为真正的体细胞突变的似然性。 根据一个实施方案,计算机实施的方法确定参考基因组与来自二倍体生物体的生 物样本的样本基因组之间的一个或多个变异。接收样本基因的读段(reads)以及所述读段 至参考基因组的映射。从来自生物样本的多个基因组片段的测序获得读段。辨识样本基因 组的第一区域,其具有包括相对于参考基因组中的对应区域的一个或多个变异的第一似然 性,其中第一似然性在第一阈值之上。确定第一区域中的样本基因组的起始假设。基于起始 假设生成第一区域中的样本基因组的一组假设。该组假设中的至少一个包括多个等位基因 以及对应于所述多个等位基因的每个的相应等位基因分数。对于该组假设中的每个假设, 使用概率函数为该假设计算概率得分。概率函数接收该假设的每个等位基因以及相应等位 基因分数的输入。该组假设中的第一假设包括具有在最小阈值分数与〇. 5之间的相应等位 基因分数的第一等位基因。基于概率得分选择顶级假设(top hypothesis)。基于顶级假设 为第一区域识别参考基因组与样本基因组之间的一个或多个变异。 根据另一实施方案,计算机实施的方法确定样本的基因组中的变异识别的错误 率。接收第一变异识别和对应的第一变异得分。为已经在第一测序操作中从样本测序的第 一基因组识别第一变异识别。接收针对已经在不同于第一测序操作的第二测序操作中从同 一样本测序的第二基因组的第二变异识别。至少基于第一变异识别和第二变异识别确定第 一基因组与第二基因组之间存在不一致的不一致基因位点。基于第一变异得分将第一变异 分组为组的第一集合。为第一集合的每组确定指示变异为假阳性的似然性的变异校准得 分。为每组存储变异校准得分。 根据另一实施方案,计算机实施的方法确定样本的基因组中的变异识别的错误 率。接收样本基因组的读段以及所述读段至参考基因组的映射。从来自生物样本的多个基 因组片段的测序获得读段。辨识样本基因组的第一区域,其具有包括相对于参考基因组中 的对应区域的一个或多个变异的第一似然性,其中第一似然性在第一阈值之上。基于第一 区域中的多个假设的概率得分确定顶级假设。基于顶级假设和至少一个其它假设计算第一 变异得分。使用第一变异得分以访问数据库表以获得指示顶级假设的错误率的校准得分。 校准得分对应于包括第一变异得分的变异得分的范围。 根据另一实施方案,计算机实施的方法辨识第一样本中的体细胞突变。接收已经 基于第一样本的测序为第一基因组识别的具有第一变异得分的变异的第一集合。接收已经 基于第二样本的测序为第二基因组识别的具有第二变异得分的变本文档来自技高网
...

【技术保护点】
一种确定参考基因组与来自二倍体生物体的生物样本的样本基因组之间的一个或多个变异(variant)的方法,所述方法包括:接收所述样本基因组的读段(read)以及所述读段至所述参考基因组的映射(mapping),其中从来自所述生物样本的多个基因组片段的测序获得所述读段;辨识所述样本基因组的第一区域,所述第一区域具有包括相对于所述参考基因组中的对应区域的一个或多个变异的第一似然性,所述第一似然性在第一阈值之上;确定所述第一区域中的样本基因组的起始假设;基于所述起始假设,生成所述第一区域中的样本基因组的每个的一组假设,其中该组假设中的至少一个包括多个等位基因以及对应于所述多个等位基因的每个的相应等位基因分数;对于该组假设中的每个假设:使用概率函数为该假设计算概率得分,所述概率函数接收该假设的每个等位基因以及相应等位基因分数的输入,其中,该组假设中的第一假设包括具有在最小阈值分数与0.5之间的相应等位基因分数的第一等位基因;基于所述概率得分选择顶级假设(top hypothesis);基于所述顶级假设,为所述第一区域识别(call)所述参考基因组与所述样本基因组之间的一个或多个变异,其中,所述方法由一个或多个计算设备执行。...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:J巴卡什A哈尔彭C田K潘特P卡尼瓦利
申请(专利权)人:考利达基因组股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1