【技术实现步骤摘要】
基于低深度WGS测序末端特征的癌症早期预测方法
[0001]本专利技术涉及医学分子生物学
,特别涉及基于低深度WGS测序末端特征的癌症早期预测方法。
技术介绍
[0002]目前癌症早筛主要可以分为两大类, 一类是依靠计算机扫描技术,内镜检查技术和细胞涂片技术等传统检测方法,包括利用低剂量计算机扫描(low
‑
dose computed tomography,LDCT)检测肺癌,利用肠镜检测肠癌和利用宫颈细胞涂片检测宫颈癌等。这一类方法普遍具有较低的特异性和灵敏度,同时又具有较高的侵入性。
[0003]癌症早筛的另一类方法是液体活检方法。液体活检方法相对于上述方法检测侵入性更低同时更有利于早期癌症的检测。液体活检目前主要采用血液,尿液或者唾液等作为样品,从样品中检测肿瘤来源的细胞,DNA,mRNA, microRNA和蛋白等来确定癌症病人的状态。其中外周血血浆游离DNA(cell
‑
free DNA, cfDNA)是在癌症早筛中应用最广泛也是最有前景的。癌症病人和健康人的cfDNA有很大差异,包括突变,拷贝数,染色体重组,片段特征和甲基化等方面的显著差异。在最近的研究中,利用cfDNA片段特征来探索癌症早筛方法的研究越来越多,cfDNA末端特征(motif)属于其中的一个分支。cfDNA末端特征是指cfDNA片段5
’
末端的若干个碱基,研究表明健康人cfDNA的末端特征比癌症患者更有偏好性,比如CCCA, CCAG和CCTG这些末端特征的比例在健康人血 ...
【技术保护点】
【技术特征摘要】
1.基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于包括以下步骤:S1. 对样品进行基因靶向测序,获取原始fastq文件;S2. 对原始fastq文件进行数据控制,筛除低质量数据;S3. 将质控后的fastq文件比对参考基因组获得bam文件,对bam文件进行数据过滤,去除重复序列;S4. 分别统计cfDNA片段末端特征、break
‑
point末端特征的数量和比例;S5. 计算用于区分癌症病人的Mscore值。2.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S2中质量控制条件为:样品的测序深度不低于5
×
,碱基错误低于0.1%的碱基占总碱基数的比例大于90%,比对到基因组上的reads占所用reads的比例大于95%, 测序结果对基因组序列的覆盖度大于90%。3.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S3中所述参考基因组序列为hg19。4.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S3中过滤条件为:取成对的reads,最多错配为3bp,最多indel数量为2 bp,最长indel的gap为3bp。5. 根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S4中cfDNA片段末端特征数量和比例统计方法为:从每条read的正链及负链的5
’
端的4
‑
6bp的末端,分别取4
‑
6bp长度的末端序列片段,统计序列末端序列片段的数量和占比。6.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S4中break
‑
point末端特征的数量和比例统计方法为:从每条read的负链5
’
端取2bp和3bp的末端序列片段,从参考基因组与read的负链5
’
端衔接端取2 bp和3 bp序列,将二者拼接得到4bp和6bp的break
‑
point特征序列,统计break
‑
point特征序列的数量和占比。7.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S5具体为:基于S4得到的样本cfDNA片段末端特征及break
‑
point末端特征的数量和比例,用LAS...
【专利技术属性】
技术研发人员:万千惠,张轶群,李振聪,张怡然,裴志华,王东亮,牛孝亮,
申请(专利权)人:北京求臻医学检验实验室有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。