【技术实现步骤摘要】
一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统
本专利技术属于生物信息学领域,具体涉及基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统。
技术介绍
结直肠癌(Colorectalcancer,CRC)患者死亡的主要原因是肿瘤复发和转移[1]。目前Ⅲ期CRC的主要治疗手段是肿瘤根治切除术辅助以CapeOX(卡培他滨+奥沙利铂)或FOLFOX(奥沙利铂、氟尿嘧啶和亚叶酸钙)为基础的化学治疗,但综合治疗后的CRC患者仍约有30%-50%复发[2-3]。如果这些综合治疗未受益或出现进展的患者能进行风险预测并及时调整治疗方案(如二次手术切除、靶向治疗或免疫治疗),则有望提高患者的总体生存率和生活质量。然而,目前尚缺乏无创、有效的检测手段筛选Ⅲ期CRC复发转移风险高的患者亚组,以指导CRC的临床精准诊疗。目前,结直肠癌术后复发和转移监测的主要手段是血清CEA和影像学检查。影像检查可能会出现结论不确切、制定新治疗方案延迟以及造影剂暴露等潜在副作用,且不能早期发现隐匿病灶。CEA对CRC复发转移风险预测的敏感性和特异性也十分有限,以至于许多复发事件发现时已为时过晚,仅10%-20%的异时转移得以根治性治疗[4]。因此,迫切需要开发高效、灵敏的血液标记物,实现CRC患者的早期复发风险评估和动态监测。基于血浆中循环肿瘤细胞(Circulatingtumorcell,CTC)、循环肿瘤DNA(CirculatingtumorDNA,ctDNA)及外泌体检测的“液体活检”已被 ...
【技术保护点】
1.一种结直肠癌转移和或复发风险监测的方法,其特征在于,所述方法包含以下步骤:/nS1)收集来源于结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值以及对应样本的无复发生存期信息,形成训练集数据库;/nS2)采用随机森林模型对步骤1)中的训练集数据库中的数据进行训练,获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间的映射关系;进而获得直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间关联模型;所述关联模型以5个ctDNA甲基化区块的甲基化信号值为特征,所述5个ctDNA甲基化区块包括cg20506550、cg04865180、cg12537168、cg11977686和cg19776201;/nS3)使用步骤S2)的关联模型,通过待测预测患者的的ctDNA甲基化区块的甲基化信号值预测其结直肠癌转移和或复发进展风险。/n
【技术特征摘要】
1.一种结直肠癌转移和或复发风险监测的方法,其特征在于,所述方法包含以下步骤:
S1)收集来源于结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值以及对应样本的无复发生存期信息,形成训练集数据库;
S2)采用随机森林模型对步骤1)中的训练集数据库中的数据进行训练,获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间的映射关系;进而获得直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间关联模型;所述关联模型以5个ctDNA甲基化区块的甲基化信号值为特征,所述5个ctDNA甲基化区块包括cg20506550、cg04865180、cg12537168、cg11977686和cg19776201;
S3)使用步骤S2)的关联模型,通过待测预测患者的的ctDNA甲基化区块的甲基化信号值预测其结直肠癌转移和或复发进展风险。
2.根据权利要求1所述的制备方法,其特征在于,在步骤S2)中,5个ctDNA甲基化区块通过以下方法筛选:
S211)以训练集数据库中的血浆样本中结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值的集合作为特征集合,使用Python建立随机森林模型,然后根据特征对应的权重进行降序排序,同时用obbscore来评定模型性能;
S212)按照一定删除比例,从特征组合中进行删除权重排名最低的一个或几个特征,得到新的特征组合;所述删除比例为每次删除1-3个特征;
S213)用新的特征组合再次建立新的随机森林模型,依据每个特征权重再次对其进行降序排序,并获得obbscore来评估新的模型;
S214)重复步骤S212)和S123),直至特征组合只剩下1个特征;
S215)每个特征组合都对应到一个随机森林模型,选择obbscore最高的特征组合作为最后特征组合;
S216)重复S211)至S215)全部步骤80-120次,从每次得到的最后特征组合中选取出现次数≥90的特征,得到预测特征组合,即用于预测的ctDNA甲基化区块的组合;
优选地,训练集数据库中的结直肠癌患者血浆样本来自于Ⅰ、Ⅱ期和Ⅳ期的结直肠癌患者。
3.根据权利要求1所述的制备方法,其特征在于,步骤S2)中还包括采用GridSearchCV方法选取对随机森林模型2-4个参数进行调整的步骤;
优选地,针对不同的参数组合,用得到的无复发生存期信息的准确度来对每个参数组合进行评估,从中筛选最优的参数组合,用于最终模型的建立。
4.根据权利要求2所述的制备方法,其特征在于,在步骤S211)中,ctDNA甲基化区块的甲基化信号值的集合为第一甲基化区块集合,所述第一甲基化区块集合通过以下方法筛选:
S2111)从一期二期和三期四期肠癌血浆标本按3:1比例随机抽取独立样本进行T检验,其中;重复t-test100次;同时进行肠癌组织和...
【专利技术属性】
技术研发人员:梁莉,王蔚,蓝孝亮,丁彦青,张学聪,
申请(专利权)人:南方医科大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。