基于低深度WGS测序末端特征的癌症早期预测方法技术

技术编号:37151326 阅读:21 留言:0更新日期:2023-04-06 22:07
本发明专利技术涉及医学分子生物学技术领域,特别涉及基于低深度WGS测序末端特征的癌症早期预测方法,通过采集健康人群与肿瘤人群样本,同时提取和统计样本cfDNA片段末端特征及break

【技术实现步骤摘要】
基于低深度WGS测序末端特征的癌症早期预测方法


[0001]本专利技术涉及医学分子生物学
,特别涉及基于低深度WGS测序末端特征的癌症早期预测方法。

技术介绍

[0002]目前癌症早筛主要可以分为两大类, 一类是依靠计算机扫描技术,内镜检查技术和细胞涂片技术等传统检测方法,包括利用低剂量计算机扫描(low

dose computed tomography,LDCT)检测肺癌,利用肠镜检测肠癌和利用宫颈细胞涂片检测宫颈癌等。这一类方法普遍具有较低的特异性和灵敏度,同时又具有较高的侵入性。
[0003]癌症早筛的另一类方法是液体活检方法。液体活检方法相对于上述方法检测侵入性更低同时更有利于早期癌症的检测。液体活检目前主要采用血液,尿液或者唾液等作为样品,从样品中检测肿瘤来源的细胞,DNA,mRNA, microRNA和蛋白等来确定癌症病人的状态。其中外周血血浆游离DNA(cell

free DNA, cfDNA)是在癌症早筛中应用最广泛也是最有前景的。癌症病人和健康人的cfDNA有很大差异,包括突变,拷贝数,染色体重组,片段特征和甲基化等方面的显著差异。在最近的研究中,利用cfDNA片段特征来探索癌症早筛方法的研究越来越多,cfDNA末端特征(motif)属于其中的一个分支。cfDNA末端特征是指cfDNA片段5

末端的若干个碱基,研究表明健康人cfDNA的末端特征比癌症患者更有偏好性,比如CCCA, CCAG和CCTG这些末端特征的比例在健康人血浆中比在癌症病人血浆中高。目前,如何将cfDNA片段末端特征来助力早期癌症预测,具有十分重要的意义。

技术实现思路

[0004]针对以上述
技术介绍
的不足,本专利技术提供基于低深度WGS测序末端特征的癌症早期预测方法。
[0005]本专利技术采用的技术方案如下:基于低深度WGS测序末端特征的癌症早期预测方法,关键在于:包括以下步骤:S1. 对样品进行基因靶向测序,获取原始fastq文件;S2. 对原始fastq文件进行数据控制,筛除低质量数据;S3. 将质控后的fastq文件比对参考基因组获得bam文件,对bam文件进行数据过滤,去除重复序列;S4. 分别统计cfDNA片段末端特征、break

point末端特征的数量和比例;S5. 计算用于区分癌症病人的Mscore值。
[0006]优选的,S2中质量控制条件为:样品的测序深度不低于5
×
,碱基错误低于0.1%的碱基占总碱基数的比例大于90%,比对到基因组上的reads占所用reads的比例大于95%, 测序结果对基因组序列的覆盖度大于90%。
[0007]优选的,S3中所述参考基因组序列为hg19。
[0008]优选的,S3中过滤条件为:基于CIGAR值取成对的reads(CIGAR值用来表明哪些
reads与参考基因组完全吻合,哪些reads和参考基因组对比有缺失,那些reads和参考基因组对比有插入),最多错配为3bp,最多indel数量为2 bp,最长indel的gap为3bp。
[0009]优选的,S4中cfDNA片段末端特征数量和比例统计方法为:从每条read的正链及负链的5

端的4

6bp的末端,分别取4

6bp长度的末端序列片段,统计序列末端序列片段的数量和占比。
[0010]优选的,S4中break

point末端特征的数量和比例统计方法为:从每条read的负链5

端取2bp和3bp的末端序列片段,从参考基因组与read的负链5

端衔接端取2 bp和3 bp序列,将二者拼接得到4bp和6bp的break

point特征序列,统计break

point特征序列的数量和占比。
[0011]优选的,S5具体为:基于S4得到的样本cfDNA片段末端特征及break

point末端特征的数量和比例,用LASSO法筛选出motif,采用式1计算第i个样品的Mscore值
ꢀꢀꢀꢀꢀꢀꢀ
式1其中,t
ij
表示极差法得到的样品i的第j个motif的归一化的比例值;m为筛选出的motif数量;W
j
为motif j的重要性。
[0012]优选的,所述t
ij
采用式2计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式2其中,P
ij
是样品i的第j个motif的比例,i代表所有样品中的第i个样品,j代表所有motif中的第j个motif,对第i个样品的第j个motif。
[0013]优选的,由随机森林得到的每个motif j权重w
j
,当

P
j
≥0时,W
j
=w
j
;当

P
j
<0时,W
j
=

w
j

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式3其中,

P
j
是第j个motif的比例的均值在健康组和肿瘤组之间的差值;n
h
表示健康人样品的数量,n
t
表示肿瘤样品的数量,i
h
表示第i个健康人样品,i
t
表示第i个肿瘤样品,P
ihj
是健康人样品i
h
的第j个motif的比例,P
itj
是肿瘤病人样品i
t
的第j个motif的比例。
[0014]优选的,所述样品为来自于健康人群和肿瘤人群的组织液样品和块状样品,组织液样本包括组织研磨液、鼻拭子、病毒液、血液、血清、血浆、精液、唾液、尿液中的任一种;块状样品包括组织块、转基因小鼠尾巴、趾甲中的任一种。
[0015]有益效果:与现有技术相比,本专利技术提供的基于低深度WGS测序末端特征的癌症早期预测方法,通过采集健康人群与肿瘤人群样本,同时提取和统计样本cfDNA片段末端特征及break

point末端特征,全面地考虑了不同长度和不同位置的片段末端特征,并利用优化的Mscore算法,更简便区分健康人组和癌症病人组,且在不同数据量的情况下仍能保持高稳定性。
附图说明
[0016]图1为基于5
×
深度下的稳定性示意图;图2为基于本专利技术的分类性能AUC曲线图;
图3为基于不同癌种的分类性能AUC曲线图;图4为不同深度下的稳定性示意图。
具体实施方式
[0017]为使本领域技术人员更好的理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作详细说明。
[0018本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于包括以下步骤:S1. 对样品进行基因靶向测序,获取原始fastq文件;S2. 对原始fastq文件进行数据控制,筛除低质量数据;S3. 将质控后的fastq文件比对参考基因组获得bam文件,对bam文件进行数据过滤,去除重复序列;S4. 分别统计cfDNA片段末端特征、break

point末端特征的数量和比例;S5. 计算用于区分癌症病人的Mscore值。2.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S2中质量控制条件为:样品的测序深度不低于5
×
,碱基错误低于0.1%的碱基占总碱基数的比例大于90%,比对到基因组上的reads占所用reads的比例大于95%, 测序结果对基因组序列的覆盖度大于90%。3.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S3中所述参考基因组序列为hg19。4.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S3中过滤条件为:取成对的reads,最多错配为3bp,最多indel数量为2 bp,最长indel的gap为3bp。5. 根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S4中cfDNA片段末端特征数量和比例统计方法为:从每条read的正链及负链的5

端的4

6bp的末端,分别取4

6bp长度的末端序列片段,统计序列末端序列片段的数量和占比。6.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S4中break

point末端特征的数量和比例统计方法为:从每条read的负链5

端取2bp和3bp的末端序列片段,从参考基因组与read的负链5

端衔接端取2 bp和3 bp序列,将二者拼接得到4bp和6bp的break

point特征序列,统计break

point特征序列的数量和占比。7.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S5具体为:基于S4得到的样本cfDNA片段末端特征及break

point末端特征的数量和比例,用LAS...

【专利技术属性】
技术研发人员:万千惠张轶群李振聪张怡然裴志华王东亮牛孝亮
申请(专利权)人:北京求臻医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1