染色体的检测方法和装置制造方法及图纸

技术编号:10106656 阅读:190 留言:0更新日期:2014-06-01 21:23
本发明专利技术公开了一种染色体的检测方法和装置。其中,染色体的检测方法包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。通过本发明专利技术,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种染色体的检测方法和装置。其中,染色体的检测方法包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。通过本专利技术,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。【专利说明】染色体的检测方法和装置
本专利技术涉及基因工程领域,具体而言,涉及一种染色体的检测方法和装置。
技术介绍
对于母体外周血浆中存在的胎儿游离DNA,目前最为通用的检测方法是基于第二代高通量测序技术,首先对孕妇取少量外周血液,提取外周血中的游离DNA,然后一般是多样本混合建库,单端50碱基序列长度测序,将测序数据根据不同的样本标记(barcode)进行数据分离到每个样本,再将每个样本数据质控后通过第三方的短序列比对软件(如soapAligner或bwa)和人的参考基因组进行比对,得出测序数据在目标染色体的覆盖深度,也就是染色体剂量(chromosome dosage),然后通过染色体剂量判断样本是阳性样本还是阴性样本。由于基于第二代高通量测序技术的得到测序数据量是非常巨大的,对于上述检测胎儿染色体倍型异常的技术来说,每个样本需要测量约300M碱基的数据量。在样本数越来越多的情况下,对该检测技术的生物信息分析方法的速度要求就会日益明显。但是现有的检测方式中,原始的测序数据产出后需依次经过样本分离,数据比对和数据比对结果分析统计才能得到检测结果,其中,不仅每一个步骤需要采用相对独立的软件进行处理,并且每一个步骤还需要读取上一个步骤的输出结果作为输入,这些反复的输入输出耗费了大量额外时间,并极大的消耗系统的1/0 (输入输出)性能和磁盘空间。同时,对于数据比对确定染色体,需要通过复杂的计算方式进行,系统的处理速度非常慢,进一步导致检测周期较长、效率低下。针对相关技术中染色体检测的速度较慢的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种染色体的检测方法和装置,以解决现有技术中染色体检测的速度较慢的问题。为了实现上述目的,根据本专利技术的一个方面,提供了 一种染色体的检测方法。根据本专利技术的染色体的检测方法包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以nl碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl ( n3 ;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。进一步地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,检测方法还包括:以多进程方式执行分割步骤、比较步骤和确定步骤。进一步地,目标测序序列的数量为多个,在将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列之后,并且在根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称之前,检测方法还包括:查找与每个目标测序序列Ci的每个测序子序列Cu具有相同碱基的参考子序列,其中,i依次取I至imax,j依次取jmax,Ifflax为目标测序序列的数量;Jfflax为目标测序序列Ci的测序子序列的数量;确定与测序子序列Cu具有相同碱基的参考子序列的染色体名称为测序子序列Cu的染色体名称;判断多个目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, ^的染色体名称是否均相同,其中,i' e (I, Ifflax);以及在判断出多个目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, d勺染色体名称不均相同的情况下,从多个目标测序序列中过滤掉第一测序序列Ci,。进一步地,通过以下方式确定目标测序序列对应的染色体名称:查找与第二测序序列Ci,,的任一测序子序列Ci, , j,具有相同碱基的参考子序列,其中,第二测序序列Ci,,为过滤掉第一测序序列Ci,的任一目标测序序列,i',e(l,imax),j' e (l,j' _),?Τ _为第二测序序列Ci,,的测序子序列的数量,并且i' f #if ;以及确定与测序子序列Ci, , j,具有相同碱基的参考子序列的染色体名称为第二测序序列Ci,,的染色体名称。进一步地,在以n3喊基为步长将参考序列分割为定长为n2喊基的多个参考子序列之后,检测方法还包括:将参考序列的多个参考子序列存储至共享内存中,其中,将每个测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列相比较,确定出目标测序序列,并根据目标测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。进一步地,在以n3喊基为步长将参考序列分割为定长为n2喊基的多个参考子序列之后,检测方法还包括:删除参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,第一子序列为包括N碱基的子序列,其中,将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列包括:将每个测序序列的多个测序子序列与参考序列的目标参`考子序列相比较,确定出目标测序序列,其中,目标参考子序列为删除重复子序列和/或第一子序列后的多个参考子序列。根据本专利技术的另一方面,提供了一种染色体的检测装置,该检测装置主要用于执行本专利技术上述内容所提供的任一种染色体的检测方法。根据本专利技术的另一方面,提供了一种染色体的检测装置,包括:接收单元,用于接收参考序列和多个测序序列;分割单元,用于以nl碱基为步长将每个测序序列均分割为定长为n2喊基的多个测序子序列,并以n3喊基为步长将参考序列分割为定长为n2喊基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl <n3 ;比较单元,用于将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及第一确定单元,用于根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。进一步地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,分割单元、比较单元和第一确定单元的数量均为多个。进一步地,目标测序序列的数量为多个,检测装置还包括:查找单元,用于查找与每个目标测序序列Ci的每个测序子序列Cu具本文档来自技高网
...

【技术保护点】
一种染色体的检测方法,其特征在于,包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以n1碱基为步长将每个所述测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将所述参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3;比较步骤:将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出目标测序序列,其中,所述目标测序序列的多个测序子序列均包含在所述参考序列的多个参考子序列中;以及确定步骤:根据所述目标测序序列的多个测序子序列与所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称,其中,所述参考序列和所述参考序列的每个参考子序列均具有对应的染色体名称。

【技术特征摘要】

【专利技术属性】
技术研发人员:阮航潘凯王海龙李瑞强
申请(专利权)人:北京诺禾致源生物信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1