【技术实现步骤摘要】
校正测序数据、检测拷贝数变异的方法、设备和介质
[0001]本专利技术总体上涉及生物信息处理,并且具体地,涉及用于校正测序数据的方法、用于检测拷贝数变异的方法、计算设备和计算机存储介质。
技术介绍
[0002]在二代测序仪上测出的测序数据通常都会表现出测序深度与GC 含量的相关性,称为GC偏好(或称“GC bias”)。GC偏好指的是基因组上GC含量在50%左右的区域更容易被测到,产生的读长更多,这些区域的覆盖度更高,在高GC含量或者低GC含量的区域,不容易被测到,产生较少的读长,这些区域的覆盖度更少。为了后续生物信息分析更加准确,通常需要做GC bias的校正。
[0003]传统的用于校正测序数据的方案例如包括:将GC content划出窗口(或称“bin”),然后在窗口的基础上使用Loess回归等类似算法进行GC校正。不过,在传统的用于校正测序数据的方案主要是基于基因组层面的GC校正,存在一些区域的校正效果欠佳,特别是高GC含量的区域的校正效果尤其不理想,例如,难以消除测序和基因组本身特征引入的偏差。
[ ...
【技术保护点】
【技术特征摘要】
1.一种用于校正测序数据的方法,其特征在于,包括:基于待测样本的测序数据与人类参考基因组序列的比对结果数据,计算每一条唯一比对上的读长在参考基因组中的位置和每个位置被测序到的次数;将基因组按照预定长度的窗口进行划分,以便统计每一个窗口内比对上的读长数目;针对每一个窗口内的比对上的读长数目进行GC校正,以便生成经由窗口层面的GC校正的每个窗口的唯一比对数;基于待测样本的染色体层面的唯一比对数占比,获得唯一比对数占比调整比例,以便基于经由窗口层面的GC校正的每个窗口的唯一比对数和唯一比对数占比调整比例生成经由染色体层面的GC校正的每个窗口的唯一比对数;以及针对经由染色体层面的GC校正的每个窗口的唯一比对数进行归一化,以便获得经由归一化和GC矫正的每个窗口的唯一比对数。2.根据权利要求1所述的方法,其特征在于,待测样本的染色体层面的唯一比对数占比包括:待测样本的每条染色体的预测唯一比对数占比和待测样本的每条染色体的实际唯一比对数占比。3. 根据权利要求1所述的方法,其特征在于,生成经由窗口层面的GC校正的每个窗口的唯一比对数包括:选取所有常染色体上存在比对上的读长的窗口,以便确定每个窗口上的GC碱基所占比例;以及基于所确定的每个窗口上的GC碱基所占比例,经由经训练的GC校正模型,获得每个窗口上的预测唯一比对数,以用于生成经由窗口层面的GC校正的每个窗口的唯一比对数。4. 根据权利要求3所述的方法,其特征在于,获得每个窗口上的预测唯一比对数,以用于生成经由窗口层面的GC校正的每个窗口的唯一比对数包括:计算常染色体上所有存在比对上的读长的窗口的归一化唯一比对数的中位数;以及基于每个窗口上的预测唯一比对数和所计算的归一化唯一比对数的中位数,生成经由窗口层面的GC校正的每个窗口的唯一比对数。5.根据权利要求1所述的方法,其特征在于,生成经由染色体层面的GC校正的每个窗口的唯一比对数包括:基于人类参考基因组序列,计算每条染色体上GC碱基所占比例;计算阴性参考集的每条染色体的唯一比对数占比;计算待测样本的每条染色体的实际唯一比对数占比,以便计算待测样本的每条染色体的实际唯一比对数占比相对于阴性参考集的每条染色体的唯一比对数占比的含量比;以及基于每条染色体上GC碱基所占比例、所计算的含量比,经由线性回归模型拟合,以便确定回归系数,以用于基于所确定回归系数生成待测样本的每条染色体的预测唯一比对数,以生成经由染色体层面的GC校正的每个窗口的唯一比对数。6. 根据权利要求5所述的方法,其特征在于,基于所确定回归系数生成每条染色体的预测唯一比对数,以生成经由染色体层面的GC校正的每个窗口的唯一比对数包括:基于每条染色体...
【专利技术属性】
技术研发人员:张钰,孙怀玉,卢玉林,
申请(专利权)人:北京贝瑞和康生物技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。