构建结直肠肿瘤状态评估模型的方法及应用技术

技术编号:26175377 阅读:25 留言:0更新日期:2020-10-31 14:08
本发明专利技术涉及基因检测及生物信息学领域,公开了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法在结直肠肿瘤状态评估模型中的应用,公开了基于转录组数据、外显子组/基因组数据和临床表型挖掘结直肠癌标志物的方法,设计了一套整合高通量测序数据和临床表型构建结直肠癌状态评估模型的计算方法,筛选到了结直肠癌相关的生物标志物,形成了相应的疾病状态评估模型。通过本发明专利技术方法构建得到准确性与机制解释性兼顾的标志物,可用于结直肠癌预后评估、治疗效果预测及治疗方案辅助决策等。

【技术实现步骤摘要】
构建结直肠肿瘤状态评估模型的方法及应用
本专利技术涉及基因检测及生物信息学
,具体涉及一种基于高通量测序数据和临床表型构建结直肠癌状态评估方法,及其相关检测panel设计和实施应用案例。
技术介绍
第一代测序技术,通过双脱氧末端终止法或化学切割法,获得序列特定位置的碱基信息,利用电泳和显影读取核酸序列。基因芯片技术,通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,实现了高通量并行化,缺点在于可重复性和灵敏度有待增强,分析范围不够广泛。二代测序技术,又称新一代测序技术(next-generationsequencing,NGS),与第一代测序不同,通过体外片段扩增和边合成边测序,实现了高通量并行化测序,主要缺点是读长短。第三代测序技术,又称单分子测序技术,无需扩增,直接通过检测模板序列的荧光信号或电信号,不受读长限制地直接读取模板序列信息。高通量测序数据(第二代或第三代测序技术生成),在DNA层面可以高通量检测突变,包括点突变、插入缺失突变、基因融合、拷贝数变异等,在RNA层面则可高通量检测基因定量表达水平、可变基因剪切与融合等,对于精准医学发展起到重要推动作用。以肿瘤、心脑血管疾病、代谢类疾病为代表的复杂疾病是人类健康的重大威胁,目前对复杂疾病致病机制的研究,得益于生物技术的快速发展,有了长足进步。基于复杂疾病样本的高通量测序数据,可以从分子水平阐释复杂疾病的发生、进展、转归、治疗和预后的规律,辅助有效评估肿瘤状态,为制定精准有效的治疗方案提供指导。肿瘤是复杂疾病的典型代表,其导致的可检测的突变或异常表达基因,同具体肿瘤临床表型密切相关时,即有可能作为分子肿瘤标志物,用于诊断、风险评估、预后、指导治疗、进展和安全性评估等。基于高通量测序数据的复杂疾病标志物发现技术和相关标志物检测评估方案已经取得长足进步,但仍面临如下不足有待克服:1)标志物挖掘方法相对简单,准确性和可解释性亟需增强。对于多基因相关的复杂疾病,基于单个基因的标志物难以达到高准确性;相对于提高准确性,对标志物的机制可解释性关注更为不足。这既不符合循证医学理念以及理解标志物关键原理,也不利于实现标志物的理论最优组合,从而提高其鲁棒性和可重复性。2)检测和评估内容相对单一,功能有限。目前,由于基因收集筛选能力和测序成本,同一标志物检测方案覆盖的基因相对较少,实际应用中以单位点或小片段突变为主要评估指标,近年来以基因表达水平和检测panel中所有基因整体突变水平作为标志物评估的方案日益受到关注;在功能方面,以位点或基因相关靶向药效果预测为主,对于更广泛的手术、化疗、放疗、免疫治疗等指导意义有限。3)标志物设计及配套数据分析工具,对多元信息的利用不够充分。目前多数设计方案仅针对药物指南、标签以及有限的文献收集,技术路线侧重于单一组学层面,基于大规模测序结果、公共数据库及文本挖掘技术综合分析较少,对涵盖多种分子组学和临床表型信息的多元数据整合分析严重不足。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于转录组数据、外显子组/基因组数据和临床表型挖掘结直肠癌标志物的方法,设计了一套整合高通量测序数据和临床表型构建结直肠癌状态评估模型的计算方法,筛选到了结直肠癌相关的生物标志物,形成了相应的疾病状态评估模型。通过本专利技术建立的方法挖掘到的结直肠癌标志物,兼顾标志物准确性与机制解释性;本专利技术所设计的结直肠癌状态评估模型构建方法,对多元信息利用充分,评价指标丰富,功能系统全面实用,涵盖筛选挖掘、建模评分与检测panel设计等。以上技术创新能在结直肠癌标志物挖掘和状态评估模型构建中进行了具体实施。本专利技术提出了一种基于转录组数据、外显子组数据和临床表型挖掘复杂疾病标志物的方法,包括以下步骤:步骤1)对复杂疾病病例信息分类整理:步骤1.1)将所述复杂疾病病例信息分为转录组数据、外显子组/基因组数据和临床信息;步骤1.2)将所述复杂疾病病例信息按照疾病状态分类并进行配对整理;以上信息分类将用于步骤2三种方法模式的选择。步骤2)构建复杂疾病标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:若所述复杂疾病病例信息仅涉及转录组数据与临床信息,则执行步骤2.1)基于转录组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系标志物组合;若所述复杂疾病病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因变异标志物组合;若所述复杂疾病病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。具体地,所述步骤2.1)包括以下子步骤:步骤2.1.1)构建参考基因调控网络:从公共数据资源中可获取的转录调控关系信息以及人类编码基因启动子序列出发,识别潜在的转录因子(transcriptionalfactor,TF)与靶基因(target)关系对,构建参考基因调控网络(ReferenceGeneRegulationNetwork,rGRN)。步骤2.1.2)基于特定疾病状态下的转录组表达数据以及rGRN中的TF-target关系,构建特定疾病状态下的,即条件特异的基因调控网络(ConditionalGeneRegulationNetwork,cGRN)。步骤2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异的基因调控网络,即特定疾病状态的基因调控网络。步骤2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异:采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;采用De-biasedLASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异的基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异的基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。步骤2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系:整合三方面与基因调控相关的因素,筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。步骤2.1.5)基于基因异常调控关系,构建复杂疾病状态(如疾病进展阶段、预后、治疗方案敏感性)相关的基因异常调控关系标志物组合,该标志物组合可用于疾病进展评估、预后评估本文档来自技高网
...

【技术保护点】
1.一种基于高通量测序数据和临床表型构建的状态评估模型在结直肠肿瘤状态评估中的应用,其特征在于,包括以下步骤:/n步骤14.1)获取结直肠肿瘤病例信息,包括高通量测序数据和临床信息,根据结直肠肿瘤病例状态分类并进行配对整理;/n步骤14.2)构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合;其中,所述标志物组合具体基因集包括以下53个基因:RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1、KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E;/n步骤14.3)筛选结直肠肿瘤相关的临床信息及检验和病理指标;参考结直肠肿瘤相关的基因异常调控关系和步骤14.2所得基因变异标志物组合,整合优化为结直肠肿瘤多元标志物组合,用于构建结直肠肿瘤综合状态评分模型,并开发封装为结直肠肿瘤综合状态评分计算系统;/n步骤14.4)基于步骤14.2所得结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合,设计结直肠肿瘤综合状态评估的靶基因目标区域相关探针和/或引物,用作结直肠肿瘤综合状态评估基因检测panel;/n步骤14.5)构建一套结直肠肿瘤综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。/n...

【技术特征摘要】
1.一种基于高通量测序数据和临床表型构建的状态评估模型在结直肠肿瘤状态评估中的应用,其特征在于,包括以下步骤:
步骤14.1)获取结直肠肿瘤病例信息,包括高通量测序数据和临床信息,根据结直肠肿瘤病例状态分类并进行配对整理;
步骤14.2)构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合;其中,所述标志物组合具体基因集包括以下53个基因:RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1、KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E;
步骤14.3)筛选结直肠肿瘤相关的临床信息及检验和病理指标;参考结直肠肿瘤相关的基因异常调控关系和步骤14.2所得基因变异标志物组合,整合优化为结直肠肿瘤多元标志物组合,用于构建结直肠肿瘤综合状态评分模型,并开发封装为结直肠肿瘤综合状态评分计算系统;
步骤14.4)基于步骤14.2所得结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合,设计结直肠肿瘤综合状态评估的靶基因目标区域相关探针和/或引物,用作结直肠肿瘤综合状态评估基因检测panel;
步骤14.5)构建一套结直肠肿瘤综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。


2.如权利要求1所述的应用,其特征在于,步骤14.2中,构建结直肠肿瘤标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述结直肠肿瘤病例信息仅涉及转录组数据与临床信息,则执行步骤14.2.1)基于转录组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系标志物组合;
若所述结直肠肿瘤病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤14.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因变异标志物组合;
若所述结直肠肿瘤病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤14.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。


3.如权利要求3所述的应用,其特征在于,所述步骤14.2.1)具体包括以下子步骤:
步骤14.2.1.1)构建参考基因调控网络;
步骤14.2.1.2)基于结直肠肿瘤特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤14.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤14.2.1.4)筛选不同结直肠肿瘤疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤14.2.1.5)基于步骤14.2.1.4)得到的基因异常调控关系,构建结直肠肿瘤相关的基因异常调控关系标志物组合。


4.如权利要求3所述的应用,其特征在于,步骤14.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即结直肠肿瘤特定疾病状态的基因调控网络;和/或,
步骤14.2.1.3)中,采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;
采用De-biasedLASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异;和/或,
步骤14.2.1.4)中,整合三方面与基因调控相关的因素,筛选结直肠肿瘤不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序;和/或,
步骤14.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建结直肠肿瘤相关的基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。


5.如权利要求2所述的应用,其特征在于,所述步骤14.2.2)具体包括以下子步骤:
步骤14.2.2.1)识别与结直肠肿瘤相关的基因变异;
步骤14.2.2.2)采用数据驱动和/或先验知识驱动定量筛选结直肠肿瘤状态相关的重要基因变异;
步骤14.2.2.3)基于步骤14.2.2.2)得到的结直肠肿瘤状态相关的重要基因变异,构建结直肠肿瘤相关的基因变异标志物组合。

【专利技术属性】
技术研发人员:戴文韬李园园刘继翔刘伟
申请(专利权)人:上海生物信息技术研究中心
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1