一种癌症检测模型及其构建方法和试剂盒技术

技术编号:31569819 阅读:18 留言:0更新日期:2021-12-25 11:09
本发明专利技术公开了一种癌症检测模型及其构建方法和试剂盒,涉及癌症检测技术领域,本发明专利技术通过对血浆游离DNA的全基因组测序,挖掘出了可应用于癌症检测的核小体分布特征、末端序列特征以及片段大小分布特征,通过构建这三个指标的分类模型,得到每个指标对于样本的预测得分,然后使用逻辑回归模型,对这些得分进行整合并加入拷贝数变异特征信息,得到最终分类预测模型。该癌症检测模型显著提高了癌症检测的效率和准确性,且分析所需数据量较少,检测的成本低,能对不同癌症进行检测,适用于分析预测各个时期的肿瘤。此外,本发明专利技术提供的试剂盒能完成检测模型所需指标的检测,使之在ctDNA检测中能够创新地应用于癌症领域。检测中能够创新地应用于癌症领域。检测中能够创新地应用于癌症领域。

【技术实现步骤摘要】
III and IV)检出率为>75%,早期肿瘤检出率为62%。
[0005]ctDNA有别于cfDNA的其他物理化学特性。发表于Science Translational Medicine的“Enhanced detection of circulating tumor DNA by fragment size analysis”的文章指出,ctDNA的片段长度要小于cfDNA的长度,并以此为依据通过片段特异富集进行液体活检,在多癌种中验证了可以比CT更早检出肿瘤。在本文章中,作者并未纳入早期肿瘤患者的队列,因为这篇文章主要讨论的应用方向并不是早期患者的筛查和检测,因此这个方法具体的应用情况也没有具体的定论。
[0006]综合上述情况来看,针对于肿瘤早筛早诊,目前的各个研究方向的灵敏度和特异性也是各有优劣,整体看来并没有一个特别理想的结果,能够达到人们的预期。
[0007]鉴于此,特提出本专利技术。

技术实现思路

[0008]本专利技术的目的在于提供一种癌症检测模型及其构建方法和试剂盒
[0009]本专利技术是这样实现的:
[0010]第一方面,本专利技术实施例提供了一种癌症检测模型的构建方法,其包括:获取每个分类指标和拷贝数变异的测试数据,所述分类指标包括核小体分布特征、末端序列特征和片段大小分布特征;将每个分类指标的测试数据作为输入数据构建单指标分类模型,获得对样本的单指标预测得分;采用逻辑回归模型对所有分类指标的单指标预测得分进行整合,获得对样本的逻辑回归评分;将逻辑回归评分、拷贝数变异的数据以及所有分类指标的单指标预测得分作为输入数据,构建癌症检测整合模型。
[0011]第二方面,本专利技术实施例提供了检测分类指标和拷贝数差异的试剂在制备用于癌症检测的试剂盒中的应用,所述分类指标为前述实施例所述的构建方法构建的癌症检测模型中的分类指标。
[0012]第三方面,本专利技术实施例提供了一种通过全基因组测序识别癌症特征的癌症检测试剂盒,其包括:检测分类指标和拷贝数差异的试剂,所述分类指标为前述实施例所述的构建方法构建的癌症检测模型中的分类指标。
[0013]第四方面,本专利技术实施例提供了一种癌症检测模型构建装置,其包括:数据获取模块、预测得分获取模块、逻辑回归评分获取模块以及癌症检测模型构建模块;
[0014]其中,数据获取模块用于获取待测样本的分类指标和拷贝数变异的测试数据,所述分类指标包括核小体分布特征、末端序列特征和片段大小分布特征;
[0015]预测得分获取模块用于将每个分类指标的测试数据输入单指标分类模型,获得对样本的单指标预测得分,所述单指标分类模型为如前述实施例所述的构建方法构建的单指标分类模型;
[0016]逻辑回归评分获取模块用于将所有分类指标的单指标预测得分输入逻辑回归模块,获得对样本的逻辑回归评分;
[0017]癌症检测模型构建模块用于将逻辑回归评分、拷贝数变异的数据以及所有分类指标的单指标预测得分作为输入数据,构建癌症检测模型。
[0018]第五方面,本专利技术实施例提供了一种测试数据的处理方法,其包括:获取样本的每个分类指标和拷贝数变异的测试数据,所述分类指标包括核小体分布特征、末端序列特征
和片段大小分布特征;将每个分类指标的测试数据对应输入如前述实施例所述的构建方法构建的单指标分类模型,获取样本的单指标预测得分;将所有分类指标的单指标预测得分输入逻辑回归模型,获取对样本的逻辑回归评分;将逻辑回归评分、拷贝数变异数据以及所有分类指标的单指标预测得分输入如前述实施例所述的构建方法构建的癌症检测模型中。
[0019]第六方面,本专利技术实施例提供了一种测试数据的处理装置,其包括:数据获取模块、第一执行模块、第二执行模块以及预测模块;
[0020]数据获取模块用于获取待测样本的分类指标和拷贝数变异的测试数据,所述分类指标包括核小体分布特征、末端序列特征和片段大小分布特征;
[0021]第一执行模块用于将所述分类指标的测试数据输入如前述实施例所述的构建方法构建的单指标分类模型中,获得对样本的单指标预测得分;
[0022]第二执行模块用于将所有分类指标的单指标预测得分输入逻辑回归模型中,获得对样本的逻辑回归评分;
[0023]预测模块用于将逻辑回归评分、拷贝数变异的数据以及所有分类指标的单指标预测得分输入如前述实施例所述的构建方法构建的癌症检测模型中,获得样本的预测结果。
[0024]第七方面,本专利技术实施例提供了一种电子设备,其包括:处理器和存储器,所述存储器用于存储一个或多个程序,当所述程序被所述处理器执行时,使得所述处理器实现如前述实施例所述的癌症检测模型的构建方法,或者,如前述实施例所述的测试数据的处理方法。
[0025]第八方面,本专利技术实施例提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施例所述的癌症检测模型的构建方法,或者,如前述实施例所述的测试数据的处理方法。
[0026]本专利技术具有以下有益效果:
[0027]本专利技术通过对血浆游离DNA的全基因组测序,挖掘出了多个维度的可应用于癌症检测的基因组特征(核小体分布特征,末端序列特征,片段大小分布),通过对这3个特征的指标分别进行分类模型的构建,得到每个指标对于样本的预测得分,然后使用逻辑回归(logistic regression)模型,对这些得分进行整合并加入拷贝数变异特征信息,得到最终分类预测模型。
[0028]本专利技术构建的癌症检测模型能显著提高癌症检测的效率和准确性,且分析所需数据量较少,仅需要满足平均测序深度为全基因组的0.25
×
,检测的成本和/或效果超过现有技术,能够对不同癌症进行检测,适用于分析和预测各个时期的肿瘤,尤其是针对癌症的早期检测。
[0029]本专利技术提供的试剂盒能完成检测模型所需指标的检测,使之在ctDNA检测中能够创新地应用于癌症领域。
附图说明
[0030]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0031]图1为实施例1中癌症检测模型的构建流程图;
[0032]图2为实施例1中不同组对应的核小体的分布图;
[0033]图3为实施例1中不同样本之间,不同种类motif的占比;
[0034]图4为实施例1中对肿瘤患者和健康人群的血浆低深度WGS分析结果;
[0035]图5为实施例1中不同样本之间片段大小分布特征的检测数据;
[0036]图6为实施例2中使用整合模型与肝癌相关的临床指标(AFP)的结果统计AUC绘制柱状图对比肝癌的分类结果;
[0037]图7为实施例2中采用整合模型与通过数据挖掘得到的单个分类指标构建的模型的结果计算AUC值;...

【技术保护点】

【技术特征摘要】
1.一种癌症检测模型的构建方法,其特征在于,其包括:获取每个分类指标和拷贝数变异的测试数据,所述分类指标包括核小体分布特征、末端序列特征和片段大小分布特征;将每个分类指标的测试数据作为输入数据构建单指标分类模型,获得对样本的单指标预测得分;采用逻辑回归模型对所有分类指标的单指标预测得分进行整合,获得对样本的逻辑回归评分;将逻辑回归评分、拷贝数变异的数据以及所有分类指标的单指标预测得分作为输入数据,构建癌症检测整合模型。2.根据权利要求1所述的癌症检测模型的构建方法,其特征在于,所述核小体分布特征的测试数据为核小体分布差异值;所述核小体分布差异值=边缘区域片段数/片段总数
×
边缘区域长度

中心区域片段数/片段总数
×
中心区域长度;其中,中心区域为转录起始位点TSS前120~170bp至转录起始位点TSS后30~70bp;边缘区域为中心区域两侧边缘各向外延伸1800~2200bp;所述末端序列特征的测试数据为差异末端序列占比;所述差异末端序列占比=与健康样本的cfDNA片段末端的碱基排列相比具有显著差异的碱基排列的类型/末端碱基排列类型的总和;所述片段大小分布特征的测试数据为片段差异分布占比;片段差异分布占比=片段大小分布差异区域的数量/划分区域的总数,其中,片段大小分布差异区域是指与健康样本相比,短片段和长片段的比例具有显著差异的划分区域,所述划分区域是指将样本基因组按特定长度划分所获得的区域。3.根据权利要求2所述的癌症检测模型的构建方法,其特征在于,所述末端碱基排列是指cfDNA片段末端最后3~6个碱基的排列;优选地,所述特定长度为0.5~3M。4.根据权利要求1所述的癌症检测模型的构建方法,其特征在于,所述逻辑回归模型的公式如下:Logistic Score=exp(Z)/(1+exp(Z)),where Z=

B+(x1
×
NF)+(x2
×
Motif)+(x3
×
Fragment);其中,logistic Score为逻辑回归评分,Z为各特征项乘以权重的加和后与截距项的总和;B为截距项,x1为NF权重,x2为Motif权重,x3为Fragment权重,NF为核小体分布特征,Motif为末端序列特征,Fragment为片段大小分布特征;优选地,所述构建方法包括将所有分类指标对应的单指标预测得分整合获得单指标评分后,将单指标评分作为输入数据用于癌症检测模型的构建;所述单指标评分的计算公式如下:;其中,Single Score为单指标评分,cutoff为对应的阈值;优选地,所述癌症检测模型的计算公式如下:整合评分=0.5
×
(sign(Logistic Score

cutoff
Logistic Score
)+1)+sign(CNV Score

cutoff
CNV Score

【专利技术属性】
技术研发人员:张清政郑璐孙福明白健王寅李小玲吴琳
申请(专利权)人:福建和瑞基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1