基于二代测序的单基因或多基因拷贝数检测系统及方法技术方案

技术编号:21365384 阅读:60 留言:0更新日期:2019-06-15 10:11
本发明专利技术公开了一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法,利用基于正则化线性回归模型(LASSO)的机器学习算法以及层次转移模型推断单基因或者多基因外显子的拷贝数变异,包括依次连接的:序列比对模块、去除重复序列模块、计算覆盖深度模块、标准化覆盖深度模块、正则化线性回归训练模块(LASSO线性回归训练模块)、覆盖深度预测模块、断点检测和log2Ratio值矫正模块、拷贝数状态推断模块。本发明专利技术利用机器学习方法对大规模二代靶向捕获测序数据进行训练,结合层次转移模型,目的是降低由于批次效应造成的技术和生物学误差,从而达到更好的拷贝数检测的准确性和精度。

A Single Gene or Multiple Gene Copy Number Detection System and Method Based on Second Generation Sequencing Technology

The invention discloses a single gene or multiple gene copy number detection system and method based on second generation sequencing technology. The machine learning algorithm based on regularized linear regression model (LASSO) and hierarchical transfer model are used to infer copy number variations of single gene or multiple gene exons, including sequential links: sequence alignment module, repeat sequence removal module, and coverage depth module. Block, standardized coverage depth module, regularized linear regression training module (LASSO linear regression training module), coverage depth prediction module, breakpoint detection and log2Ratio correction module, copy number status inference module. The invention uses machine learning method to train large-scale second-generation target acquisition sequencing data, and combines with hierarchical transfer model, with the aim of reducing technical and biological errors caused by batch effect, so as to achieve better accuracy and accuracy of copy number detection.

【技术实现步骤摘要】
一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法
本专利技术属于生物医药领域,具体是二代测序领域中的拷贝数变异检测相关的数据分析方法,尤其涉及一种基于二代测序技术的单基因或多基因拷贝数检测系统;此外,本专利技术还涉及一种基于二代测序技术的单基因或多基因拷贝数检测方法。
技术介绍
拷贝数变异是很多遗传病和罕见病发生发展的原因。比如α地中海贫血、脊髓性肌萎缩症、杜氏肌营养不良症等等,均是由一个或多个基因上的外显子发生了拷贝数异常导致的。因此,这些基因的拷贝数检测对遗传病的控制和出生缺陷的预防起着至关重要的作用。传统的检测方法比如qPCR(实时荧光定量核酸扩增检测系统),MLPA(多重连接探针扩增技术),基因芯片等存在通量低,成本高,或者一次检测的基因数和变异类型有限的缺点。二代测序方法弥补了传统技术通量不足的特点,且可以一次性检测包括单核苷酸变异、短序列插入缺失、拷贝数变异、结构变异在内的多种变异类型,极大提升了可检测变异范围,具有非常广阔的临床应用前景。然而,二代测序方法在检测基因拷贝数变异方面存在着诸多挑战。比如,建库试剂盒品牌、批次之间,甚至不同时期的实验批次之间都存在着诸本文档来自技高网...

【技术保护点】
1.一种基于二代测序技术的单基因或多基因拷贝数检测系统,其特征在于,包括:序列比对模块,用于将测序读段使用比对软件比对到人参考基因组;去除重复序列模块,与序列比对模块相连,用于去除PCR扩增过程产生的重复序列;计算覆盖深度模块,与去除重复序列模块相连,用于将靶向捕获区间分成多个片段,计算i样本j片段上的平均覆盖深度dij;标准化覆盖深度模块,与计算覆盖深度模块相连,用于将i样本j片段上的平均覆盖深度dij根据样本的平均测序深度meanDi进行标准化;正则化线性回归训练模块,与标准化覆盖深度模块相连,利用正则化线性回归模型在目标基因拷贝数正常的样本上进行参数训练;覆盖深度预测模块,与正则化线性回...

【技术特征摘要】
2019.01.15 CN 20191003476791.一种基于二代测序技术的单基因或多基因拷贝数检测系统,其特征在于,包括:序列比对模块,用于将测序读段使用比对软件比对到人参考基因组;去除重复序列模块,与序列比对模块相连,用于去除PCR扩增过程产生的重复序列;计算覆盖深度模块,与去除重复序列模块相连,用于将靶向捕获区间分成多个片段,计算i样本j片段上的平均覆盖深度dij;标准化覆盖深度模块,与计算覆盖深度模块相连,用于将i样本j片段上的平均覆盖深度dij根据样本的平均测序深度meanDi进行标准化;正则化线性回归训练模块,与标准化覆盖深度模块相连,利用正则化线性回归模型在目标基因拷贝数正常的样本上进行参数训练;覆盖深度预测模块,与正则化线性回归训练模块相连,用于预测待测样本各目标片段上的覆盖深度期望值断点检测和log2Ratio值矫正模块,与覆盖深度预测模块相连,用于根据待测样本在目标基因待测片段上的标准化覆盖深度实际值得到log2Ratio值;并利用层次转移模型,进一步消除测序过程中的误差以及对CNV拷贝数的断点进行识别及log2Ratio值矫正;拷贝数状态推断模块,与断点检测和log2Ratio值矫正模块相连,用于设置log2Ratio经验阈值来推断拷贝数状态。2.如权利要求1所述的系统,其特征在于,所述计算覆盖深度模块中,将靶向捕获区间分成多个片段,每个片段的长度为100-150bp。3.如权利要求1所述的系统,其特征在于,所述标准化覆盖深度模块中,将i样本j片段上的平均覆盖深度dij根据样本的平均测序深度meanDi进行标准化,具体为:定义xij为非待测基因的其他所有片段上的标准化覆盖深度,yij为目标基因片段上的标准化覆盖深度:4.如权利要求1所述的系统,其特征在于,所述正则化线性回归训练模块为LASSO线性回归训练模块,所述正则化线性回归模型为LASSO线性回归模型。5.如权利要求4所述的系统,其特征在于,所述LASSO线性回归训练模块中,利用LASSO线性回归模型在目标基因拷贝数正常的样本上进行参数训练,具体为:假定有m个训练样本,每个样本n个片段:其中为各训练样本在非目标基因上的所有片段的标准化覆盖深度矩阵,为各训练样本在目标基因外显子或检测片段上的标准化覆盖深度矩阵;βtarg...

【专利技术属性】
技术研发人员:蔡秋娴旷婷孟鑫
申请(专利权)人:明码上海生物科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1