一种基因分析方法及装置制造方法及图纸

技术编号:10291217 阅读:190 留言:0更新日期:2014-08-06 18:28
一种非暂态存储介质存储包括比对测序读数的组装基因序列。一种电子处理设备配置为执行包括以下的操作:识别组装基因序列中的可能的变异;计算针对组装基因序列的读数的至少一个读数属性的值;以及,以包含可能的变异的组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的条件下调入可能的变异。所述电子处理设备还可以被配置为基于非随机选择标准选择组装基因序列的至少一个区域进行验证。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】一种非暂态存储介质存储包括比对测序读数的组装基因序列。一种电子处理设备配置为执行包括以下的操作:识别组装基因序列中的可能的变异;计算针对组装基因序列的读数的至少一个读数属性的值;以及,以包含可能的变异的组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的条件下调入可能的变异。所述电子处理设备还可以被配置为基于非随机选择标准选择组装基因序列的至少一个区域进行验证。【专利说明】鲁棒的变异识别和验证
下文涉及基因分析技术,并且涉及对该基因分析技术的应用,诸如,医疗技术、兽医技术、肿瘤学技术等。
技术介绍
基因分析应用于很多医疗和兽医领域当中,诸如,肿瘤学以及各种基因相关疾病。通常,执行临床研究以识别基因变异,所述基因变异的存在与特定的肿瘤或疾病存在关联。作为说明性范例,这样的变异可以包括:单核甘酸多态(SNP);插入或缺失(indel);拷贝数变异(CNV);染色体畸变或重排;等等。基因分析通常涉及以下操作。从患者采集组织样本,对其进行处理并将其加载到测序装置当中,所述装置生成表示通常具有大约几十到几百个碱基(base)的长度的基因序列的短部分的测序“读数”。对所述测序读数进行过滤,以丢弃重复读数,并且去除具有不可接受的低覆盖度和/或不可接受的低碱基质量的任何读数,例如,按照Phred碱基质量分数对其进行测量。一般采用低于20的phred分数作为丢弃读数的标准。其余读数被组装,以生成比对的基因序列。所述组装能够是基于测序读数的重叠部分的比对而重新做的,或者能够基于测序读数到参考序列的映射,同时允许某一百分比(例如,5-10%)的碱基失配。通过将经组装的基因序列与参考序列(有可能是与基于映射的组装当中使用的相同的参考序列)进行比较而检测出变异,并且对经组装的基因序列进行注解,以识别变异及其临床意义(其中可获得变异疾病相关信息)。执行验证,以检测/表征测序或计算误差(如果有的话)。生成描述基因分析的输出的医疗报告。优选地用不熟知基因的治疗医生能够容易地理解的说法来书写医疗报告,并且其应当包括与验证结果有关的信息。这样的分析当中的关键操作是变异识别或“调入(calling) ”。这是这样一项操作,其中,对检测到的变异进行评估,以识别所述变异是否实际存在于患者的基因组中,或者反而是测序和/或组装处理当中的伪像或其中的误差。通常,基于核苷酸碱基质量和覆盖度执行变异调入。通常通过Phred之类的质量分数来测量碱基质量。就Sanger测序而言,通过计算序列碱基的参数(诸如,峰形和分辨率),并将这些值与根据经验开发的查找表格进行比较而从谱图数据中计算Phred质量分数。phred分数通常被认为与不正确地调入碱基的概率对数相关。例如,Q = 20的phred分数(Q)对应于99%的碱基调入准确度,而Q =30对应于99.9%的准确度,Q = 40对应于99.99%的准确度,等等。覆盖度是读数的数量的度量标准,经常以倍数的形式来表达覆盖度。例如,8X的覆盖度表示平均而言,在测序期间对核甘酸读取八次。一般而言,由于覆盖度指示冗余度,较高的覆盖度对应于较高的读数可靠性。所谓的“下一代”测序(NGS)方案采用并行处理技术,其以数量级增强吞吐量。常规的phred分数计算一般不适用于NGS技术,但是大部分NGS平台生成可与从谱图数据中计算的常规Phred分数进行比较或者换算的“phred类”碱基质量分数。但是,一般认为其比旧有技术(诸如,Sanger测序)的可靠性低。为了增强NGS的可靠性,通常使用诸如Sanger测序、外显子捕获、基因分型(genotyping)阵列等的技术来验证输出。由于针对NGS和这些较早技术的不同的吞吐量尺度,因而通常要对(大得多的)NGS输出的几个随机选定的目标部分执行验证。NGS的高吞吐量使得其对于临床应用颇具吸引力。然而,由于医疗处置决定基于临床NGS结果,临床应用还要求高可靠性。因而,与较早的技术相比,NGS的较低的可靠性使得NGS难以应用于临床环境中。下文设想了克服上述限制以及其他限制的改进的装置和方法。
技术实现思路
根据一个方面,一种方法包括:在包括比对的测序读数的组装基因序列内识别可能的变异;计算用于组装基因序列的测序读数的至少一个读数属性的值;以及,在包括可能的变异的组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的条件下调入可能的变异;其中,通过电子数据处理设备执行所述识别、计算和调入。根据另一方面,一种方法包括:组装测序读数,以生成组装基因序列;基于非随机选择标准来选择组装基因序列的至少一个区域以进行验证;以及,验证所述至少一个选择区域;其中,通过电子数据处理设备执行所述组装和选择。根据另一方面,一种装置包括非暂态存储介质和电子处理设备,所述非暂态存储介质存储包括比对测序读数的组装基因序列,所述电子处理设备被配置为执行以下操作,包括:识别组装基因序列中的可能的变异;计算针对组装基因序列的读数的至少一个读数属性的值;以及,在针对包括可能的变异的组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的情况下调入可能的变异。一个优点在于更加准确的变异调入。另一个优点在于变异调入当中的更大的平台独立性。另一个优点在于与基因分析相关的验证。通过阅读以下详细说明,很多其他优点和益处对于本领域技术人员而言将变得显而易见。【专利附图】【附图说明】本专利技术可以采取各种部件和部件布置,以及各种过程操作和过程操作的布置。附图仅仅出于对图示优选实施例的目的,不应被解释为限制本专利技术。图1以图解方式示出了文中所述的基因分析系统。图2以图解方式示出了由图1的系统适当执行的基因分析方法。图3以图解方式示出了适当地替代图2的变异调入的备选变异调入方法。图4以图解方式示出了具有由三聚体形成的两个环的探针的例子。图5描绘除了文中公开的实验的对比顶部(top)特征的准确度与数量。图6以图解方式示出了在下一代测序(NGS)处理期间的信息流,连同以粗线椭圆示出的用于选择验证区域以验证NGS结果的点。【具体实施方式】采用碱基质量分数和覆盖度的组装的变异调入通常是有效的。然而,这里应当认识到这一方案存在一些缺陷。碱基质量分数和覆盖度均依赖于测序平台和比对算法,因而为一个实验室开发的依赖于这一方案的基因测试可能难以转移到另一实验室。此夕卜,测序误差倾向于传播到变异调入当中,因为即使(可能的)多碱基变异中的错误地调入了单个碱基能够导致错误的变异调入。因而,变异调入误差率会显著高于由Phred(或其他碱基质量)分数预测的碱基调入误差率。例如,在一项研究当中,针对各种下一代测序(NGS)平台的大于99.97%的测序准确度转化成了低于99%的变异调入准确度,对于某些测序平台,降至了 95% 以下。Harismendy 等人,“Evaluation of next generationsequencing platforms for population targeted sequencing studies, ” Genome Biologyvol.10:R32(2009)。增大覆盖度通常将减少变异调入误差。然而,增大覆盖度耗费时间,而且会导致更高的试剂成本,而且不会将变异调入误差率降到可本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201280060150.html" title="一种基因分析方法及装置原文来自X技术">基因分析方法及装置</a>

【技术保护点】
一种方法,包括:在包括比对测序读数的组装基因序列中识别可能的变异;计算针对所述组装基因序列的测序读数的至少一个读数属性的值;以及在针对包括所述可能的变异的所述组装基因序列的测序读数的所述至少一个读数属性的计算值满足接受标准的条件下调入所述可能的变异;其中,通过电子数据处理设备执行所述识别、计算和调入。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:S·库马尔R·辛格B·查克拉巴蒂S·库马尔
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1