基于NGS的染色体平衡易位检测分析系统及应用技术方案

技术编号:24501455 阅读:60 留言:0更新日期:2020-06-13 05:19
本发明专利技术涉及一种基于NGS的染色体平衡易位检测分析系统及应用,属于基因检测生物信息技术领域。该检测分析系统包括数据获取模块、基因组比对模块、滑动切割模块、短序列比对模块、断点分析模块和结果输出模块。首先将未能两端同时比对到人类参考基因组的reads筛选出来,并通过滑动切割成连续性的较短的子序列,再将子序列重新比对到人类参考基因组,使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组,又通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法,能够快速筛选出两端分别比对不同染色体的reads,并准确定位平衡易位断点,为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT、PGS、PGD及一般的NGS测序结果等。

Detection and analysis system of chromosome equilibrium translocation based on ngs and its application

【技术实现步骤摘要】
基于NGS的染色体平衡易位检测分析系统及应用
本专利技术涉及基因检测生物信息
,特别是涉及一种基于NGS的染色体平衡易位检测分析系统及应用。
技术介绍
染色体平衡易位指的是两条染色体各发生一处断裂并相互交换其无着丝粒片断,形成两条新的衍生染色体称为相互易位。它包括同源和非同源染色体之间的相互易位。相互易位虽然引起染色体片段位置的改变,但仍保留了基因的总数,故称为平衡易位。平衡易位携带者在习惯性流产夫妇中的检出率比一般群体约高10倍。染色体平衡易位患者怀孕的流产率很高,或者说怀孕率很低,解决这个问题的办法就是做第三代试管婴儿,即PGD技术,可以对胚胎的染色体进行筛选,挑选健康的胚胎移植。因此对产前或者胚胎植入前的染色体平衡易位的筛查有助于优生优育。目前传统的对染色体平衡易位的检测分析方法有染色体核型分析和FISH(荧光原位杂交技术),染色体核型分析能够找出分辨率5-10MB的染色体平衡易位在内的重排异常,FISH能够找出分辨率为100KB的染色体平衡易位。但是由于这两种技术都涉及到细胞的培养,需要的时间较长。另外,随着二代测序(NGS)的发展,基于NGS检测染色体平衡易位也逐渐被开发。目前基于NGS检测染色体平衡易位的方法主要有:(1)通过检测结构性变异(SV:structuralvariants)的方法筛查潜在的平衡易位,再通过染色体可视化,比如IGV等进行观察确定。但该方法具有需要后续的人工观察,不能批量处理的缺陷。(2)基于大片段文库的pair-end的两条成对的reads分别比对到不同染色体的方法。但该方法中文库构建需要定制,无法精确判断断点;此外需要较深的测序深度,增加成本。(3)基于寻找junctionfragments或者softtrimmed,softclipped的方法进行筛选,但由于没有后续的算法支持,后续分析需要人工进行,不能批量处理,大大增加了时间。(4)基于CNV的方法,但是由于基于NGS检测CNV存在假阳性过高的问题。上述传统方法均具有流程复杂、精度低,或部分不能批量处理,还需要人工进行校对,用时过多等不足。而采用NGS检测的分析,又由于基因组重复区域过多,致使NGS比对的复杂性提高而导致假阳率较高。
技术实现思路
基于此,有必要针对上述问题,提供一种基于NGS的染色体平衡易位检测分析系统,采用该检测分析系统,能够利用自动化的分析系统,对NGS检测数据进行快速、准确的分析,提高检测分析精确性和速度。一种基于NGS的染色体平衡易位检测分析系统,包括:数据获取模块:用于获取NGS检测得到的reads数据;基因组比对模块:用于将上述reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;滑动切割模块:用于将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;短序列比对模块:用于将上述第二reads集中各子序列分别与人类参考基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,确定子序列比对到基因组染色体的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列在染色体的最佳比对区域,得到两端分别比对到人类参考基因组不同染色体的第三reads集;断点分析模块:用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点;结果输出模块:用于输出显示所述断点分析模块得到的结果。上述检测分析系统中,首先使用比对软件将未能两端同时比对到人类参考基因组的reads筛选出来,如可采用bowtie2的end-to-end模式等。并通过滑动切割,切割成如30bp大小左右连续性的较短的子序列,再通过bowtie1等软件程序将子序列重新比对到人类参考基因组,使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组,又考虑到由于序列较短,可能产生错配的问题,再以染色体为单位,通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法,快速筛选出两端分别比对不同染色体的reads,并准确定位平衡易位断点,为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT(无创产前检测)、PGS(植入前基因筛查)、PGD(植入前基因诊断)及一般的NGS测序结果等。可以理解的,上述滑动切割模块中,所述等差数列标记编号选用公差为1的等差数列编号,即1,2,3,4…k-1,k,k+1…n。在其中一个实施例中,所述基因组比对模块中,以end-to-end模式进行数据比对。在其中一个实施例中,所述短序列比对模块中,获取可比对到人类参考基因组的子序列编号,按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序,以染色体为单位,通过相关性及聚类分析结果,得到两端分别比对到人类参考基因组不同染色体的reads。在其中一个实施例中,所述短序列比对模块中,所述聚类分析为:根据某一reads子序列比对到人类参考基因组上的起始位置数据,以染色体为单位,按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后,相邻两起始位置之间最大差值≤5进行聚类分析。优选的,上述最大差值≤3。更优选的,上述最大差值为1,即进行严格匹配。上述最大差值为大于0的自然数。可以理解的,在人类基因组中存在SNP(单核苷酸多态性)、碱基插入、缺失等现象,实际样本检测得到的数据可能存在无法严格匹配至人类参考基因组的情况,因此在聚类分析时,将子序列比对到人类参考基因组后的位置要求适当放宽,可避免由于SNP、碱基插入、缺失等现象导致无法严格匹配的问题。在其中一个实施例中,短序列比对模块中,将聚类分析后得到的每个聚类的簇,与其对应子序列的编号进行相关性和协方差分析,筛选相关性为1或者-1的聚类的簇,并对相关性和协方差值的绝对值和进行加权计算,根据最大加权值找出该read对应于人类基因组染色体的最佳比对位置。可以理解的,相关性最大为1,表示比对上的基因组位置和对应的子序列编号一一对应,即正向完美比对;最小为-1,表示比对上的基因组位置和对应的子序列编号反向一一对应,即反向完美比对;只有1和-1才进入筛选范围。协方差是衡量比对数目的参数,比对上的reads越多,协方差的绝对值值越大。通过加权相关性和协方差,最大的绝对值则为子序列比对到染色体的最有可能位置。在其中一个实施例中,短序列比对模块中,当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域,且上述子序列中具有位于reads末端的子序列,则认为该reads一端匹配该染色体。上述有位于reads末端的子序列指对应编号为1的起始子序列,或者对应编号最大的末端子序列,通过上述限定,可明确read两端的严格匹配。在其中一个实施例中,所述滑动切割模块中,切割本文档来自技高网
...

【技术保护点】
1.一种基于NGS的染色体平衡易位检测分析系统,其特征在于,包括:/n数据获取模块:用于获取NGS检测得到的reads数据;/n基因组比对模块:用于将上述reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;/n滑动切割模块:用于将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;/n短序列比对模块:用于将上述第二reads集中各子序列分别与人类参考基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,确定子序列比对到基因组染色体的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列在染色体的最佳比对区域,得到两端分别比对到人类参考基因组不同染色体的第三reads集;/n断点分析模块:用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点;/n结果输出模块:用于输出显示所述断点分析模块得到的结果。/n

【技术特征摘要】
1.一种基于NGS的染色体平衡易位检测分析系统,其特征在于,包括:
数据获取模块:用于获取NGS检测得到的reads数据;
基因组比对模块:用于将上述reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;
滑动切割模块:用于将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;
短序列比对模块:用于将上述第二reads集中各子序列分别与人类参考基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,确定子序列比对到基因组染色体的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列在染色体的最佳比对区域,得到两端分别比对到人类参考基因组不同染色体的第三reads集;
断点分析模块:用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点;
结果输出模块:用于输出显示所述断点分析模块得到的结果。


2.根据权利要求1所述的基于NGS的染色体平衡易位检测分析系统,其特征在于,所述短序列比对模块中,获取可比对到人类参考基因组的子序列编号,按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序,以染色体为单位,通过相关性及聚类分析结果,得到两端分别比对到人类参考基因组不同染色体的reads。


3.根据权利要求2所述的基于NGS的染色体平衡易位检测分析系统,其特征在于,所述短序列比对模块中,所述聚类分析为:根据某一reads子序列比对到人类参考基因组上的起始位置数据,以染色体为单位,按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后,相邻两起始位置之间最大差值≤5进行聚类分析。


4.根据权利要求3所述的基于NGS的染色体平衡易位检测分析系统,其特征在于,短序列比对模块中,将聚类分析后得到的每个聚类的簇,与其对应子序列的编号进行相关性和协方差分析,筛选相关性为1或者-1的聚类的簇,并对相关性和协方差值的绝对值和进行加权计算,根据最大加权值找出该read对应...

【专利技术属性】
技术研发人员:蒙裕欢陈美君严慧孟博于世辉
申请(专利权)人:广州市金域转化医学研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1