一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统技术方案

技术编号:28945408 阅读:26 留言:0更新日期:2021-06-18 21:58
本发明专利技术涉及一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统,具体公开了一种结直肠癌转移和或复发风险监测的方法,包含以下步骤:S1)形成训练集数据库;S2)采用随机森林模型对训练集数据库中的数据进行训练,获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间的映射关系以及关联模型S3)以待测预测患者的的ctDNA甲基化区块(block)的甲基化信号值为输入值,通过关联模型预测其复发进展风险。本发明专利技术的预测模型能无创、敏感、快捷地预测CRC的进展,实现CRC患者根治术后的进展风险监测,指导临床优化治疗方案,提高患者生存率和生活质量。

【技术实现步骤摘要】
一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统
本专利技术属于生物信息学领域,具体涉及基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统。
技术介绍
结直肠癌(Colorectalcancer,CRC)患者死亡的主要原因是肿瘤复发和转移[1]。目前Ⅲ期CRC的主要治疗手段是肿瘤根治切除术辅助以CapeOX(卡培他滨+奥沙利铂)或FOLFOX(奥沙利铂、氟尿嘧啶和亚叶酸钙)为基础的化学治疗,但综合治疗后的CRC患者仍约有30%-50%复发[2-3]。如果这些综合治疗未受益或出现进展的患者能进行风险预测并及时调整治疗方案(如二次手术切除、靶向治疗或免疫治疗),则有望提高患者的总体生存率和生活质量。然而,目前尚缺乏无创、有效的检测手段筛选Ⅲ期CRC复发转移风险高的患者亚组,以指导CRC的临床精准诊疗。目前,结直肠癌术后复发和转移监测的主要手段是血清CEA和影像学检查。影像检查可能会出现结论不确切、制定新治疗方案延迟以及造影剂暴露等潜在副作用,且不能早期发现隐匿病灶。CEA对CRC复发转移风险预测的敏感性和特异性也十分有限,以至于许多复发事件发现时已为时过晚,仅10%-20%的异时转移得以根治性治疗[4]。因此,迫切需要开发高效、灵敏的血液标记物,实现CRC患者的早期复发风险评估和动态监测。基于血浆中循环肿瘤细胞(Circulatingtumorcell,CTC)、循环肿瘤DNA(CirculatingtumorDNA,ctDNA)及外泌体检测的“液体活检”已被证实可用于肿瘤的早期筛查、复发转移监测和预后评估等[5-10]。与传统的组织活检相比,该技术具有创伤小、可重复取材、可实现实时和动态监测和不受肿瘤内部异质性影响等优点。目前市场使用最广泛的ctDNA突变检测是基于数字PCR和突变阻滞扩增系统(Amplificationrefractorymutationsystem,ARMS)的技术,它们无法克服其低通量和不能检测未知突变的弊端,且DNA突变位点和类型在治疗过程中常发生改变。对于无法进行验证的复发患者的突变,需利用二代测序技术(Nextgenerationsequencing,NGS)发现新的患者特异性突变,昂贵且耗时,难以在临床工作中推广应用。血浆ctDNA甲基化检测监测肿瘤复发和转移的优势DNA甲基化检测比体细胞突变更有优势:1)更高的临床灵敏性和动态范围;2)DNA中存在多个甲基化靶向区域;3)每个靶向基因组区域内多个CpG位点同时甲基化。更为重要的是同一类型肿瘤的体细胞突变差异很大,但甲基化模式却非常一致。因此,ctDNA甲基化检测用于癌症诊断和复发风险评估更为可靠。2014年,FDA批准血浆Septin9基因甲基化检测(EpiproColon)应用于CRC的早筛,识别CRC高风险人群[11-12]。Garlan等[13]发现WIF1和NPY甲基化联合监测KRAS/BRAF/TP53转移性结直肠癌(Metastaticcolorectalcancer,mCRC)患者的准确率为69.2%。Garrigou等[14]联合血浆WIF1和NPY甲基化可检测到80%的mCRC和45%的局限性CRC。Barault等[15]也提出包含EYA4、GRIA4、ITGA4、MAP3K14-AS1和MSC的5基因甲基化标签能监测mCRC患者的肿瘤负荷。单个标记物监测转移的阳性率约为65%,但5基因panel联合检测的阳性率提高至86%。然而,当前对ctDNA甲基化的研究大都是基于甲基化特异PCR或数字PCR对单个基因或几个基因甲基化的定量分析,敏感性和稳定性欠佳。徐瑞华[16]等建立了高效敏感的肝细胞肝癌诊断和预后预测ctDNA甲基化模型,为开展ctDNA甲基化在肿瘤的早期诊断和预后评估等研究开辟了新思路。
技术实现思路
本专利技术为克服现有技术的不足,提供一种基于高通量靶向甲基化检测和分析方法,预测结直肠癌远处转移和Ⅲ期转移复发风险的ctDNA甲基化模型。本专利技术一个方面提供了一种结直肠癌转移和或复发风险监测的方法,所述方法包含以下步骤:S1)收集来源于结直肠癌患者血浆样本的ctDNA甲基化区块(mblock)的甲基化信号值以及对应样本的无复发生存期信息,形成训练集数据库;S2)采用随机森林模型对步骤S1)中的训练集数据库中的数据进行训练,获得结直肠癌患者血浆样本的ctDNA甲基化区块(block)的甲基化信号值与对应样本的无复发生存期信息之间的映射关系以及关联模型;所述关联模型以5个ctDNA甲基化区块(block)的甲基化信号值为特征,所述5个ctDNA甲基化区块(block)包括cg20506550、cg04865180、cg12537168、cg11977686和cg19776201;S3)以待测预测患者的的ctDNA甲基化区块(block)的甲基化信号值为输入值,通过关联模型预测复发进展风险。在一个具体实施例中,在步骤S2)中,5个ctDNA甲基化区块(block)通过以下方法筛选:S211)以训练集数据库中的血浆样本中结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值的集合作为特征集合,使用Python的sklearn包建立随机森林模型,然后根据特征对应的权重进行降序排序,同时用obbscore来评定模型性能;S212)按照一定删除比例,从特征组合中进行删除权重排名最低的一个或几个特征,得到新的特征组合;所述删除比例为每次删除1-3个特征;S213)用新的特征组合再次建立新的随机森林模型,依据每个特征权重再次对其进行降序排序,并获得obbscore来评估新的模型;S214)重复步骤S212)和S123),直至特征组合只剩下1个特征;S215)每个特征组合都对应到一个随机森林模型,选择obbscore最高的特征组合作为最后特征组合;S216)重复S211)至S215)全部步骤80-120次,从每次得到的最后特征组合中选取出现次数≥90的特征,得到预测特征组合,即用于预测的ctDNA甲基化区块的组合。在一个具体实施例中,训练集数据库中的结直肠癌患者血浆样本来自于ⅠⅡ期和Ⅳ期的结直肠癌患者。在一个具体实施例中,无复发生存期为从结直肠癌手术之日到经过验证的第一次放射学复发或由于结直肠癌导致的死亡,为无复发生存期。在一个具体实施例中,所述第一次放射学复发选自局部复发或远处转移。在一个具体实施例中,步骤S2)中还包括采用GridSearchCV方法选取对随机森林模型2-4个参数进行调整的步骤;优选地,针对不同的参数组合,用得到的无复发生存期信息的准确度来对每个参数组合进行评估,从中筛选最优的参数组合,用于最终模型的建立。在一个具体实施例中,甲基化信号值为甲基化比例,如公式(1)所示,在一个具体实施例中,在步骤S211)中,ctDNA甲基化区块的甲基化信号值的集合为第一甲基化区块集合,所述第一甲基化区块集合通过以下方法筛选:S本文档来自技高网
...

【技术保护点】
1.一种结直肠癌转移和或复发风险监测的方法,其特征在于,所述方法包含以下步骤:/nS1)收集来源于结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值以及对应样本的无复发生存期信息,形成训练集数据库;/nS2)采用随机森林模型对步骤1)中的训练集数据库中的数据进行训练,获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间的映射关系;进而获得直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间关联模型;所述关联模型以5个ctDNA甲基化区块的甲基化信号值为特征,所述5个ctDNA甲基化区块包括cg20506550、cg04865180、cg12537168、cg11977686和cg19776201;/nS3)使用步骤S2)的关联模型,通过待测预测患者的的ctDNA甲基化区块的甲基化信号值预测其结直肠癌转移和或复发进展风险。/n

【技术特征摘要】
1.一种结直肠癌转移和或复发风险监测的方法,其特征在于,所述方法包含以下步骤:
S1)收集来源于结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值以及对应样本的无复发生存期信息,形成训练集数据库;
S2)采用随机森林模型对步骤1)中的训练集数据库中的数据进行训练,获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间的映射关系;进而获得直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间关联模型;所述关联模型以5个ctDNA甲基化区块的甲基化信号值为特征,所述5个ctDNA甲基化区块包括cg20506550、cg04865180、cg12537168、cg11977686和cg19776201;
S3)使用步骤S2)的关联模型,通过待测预测患者的的ctDNA甲基化区块的甲基化信号值预测其结直肠癌转移和或复发进展风险。


2.根据权利要求1所述的制备方法,其特征在于,在步骤S2)中,5个ctDNA甲基化区块通过以下方法筛选:
S211)以训练集数据库中的血浆样本中结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值的集合作为特征集合,使用Python建立随机森林模型,然后根据特征对应的权重进行降序排序,同时用obbscore来评定模型性能;
S212)按照一定删除比例,从特征组合中进行删除权重排名最低的一个或几个特征,得到新的特征组合;所述删除比例为每次删除1-3个特征;
S213)用新的特征组合再次建立新的随机森林模型,依据每个特征权重再次对其进行降序排序,并获得obbscore来评估新的模型;
S214)重复步骤S212)和S123),直至特征组合只剩下1个特征;
S215)每个特征组合都对应到一个随机森林模型,选择obbscore最高的特征组合作为最后特征组合;
S216)重复S211)至S215)全部步骤80-120次,从每次得到的最后特征组合中选取出现次数≥90的特征,得到预测特征组合,即用于预测的ctDNA甲基化区块的组合;
优选地,训练集数据库中的结直肠癌患者血浆样本来自于Ⅰ、Ⅱ期和Ⅳ期的结直肠癌患者。


3.根据权利要求1所述的制备方法,其特征在于,步骤S2)中还包括采用GridSearchCV方法选取对随机森林模型2-4个参数进行调整的步骤;
优选地,针对不同的参数组合,用得到的无复发生存期信息的准确度来对每个参数组合进行评估,从中筛选最优的参数组合,用于最终模型的建立。


4.根据权利要求2所述的制备方法,其特征在于,在步骤S211)中,ctDNA甲基化区块的甲基化信号值的集合为第一甲基化区块集合,所述第一甲基化区块集合通过以下方法筛选:
S2111)从一期二期和三期四期肠癌血浆标本按3:1比例随机抽取独立样本进行T检验,其中;重复t-test100次;同时进行肠癌组织和...

【专利技术属性】
技术研发人员:梁莉王蔚蓝孝亮丁彦青张学聪
申请(专利权)人:南方医科大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1