NMIBC预后预测分子标志物、筛选方法及建模方法技术

技术编号:33711627 阅读:18 留言:0更新日期:2022-06-06 08:45
本发明专利技术公开了一种NMIBC预后预测分子标志物的筛选方法,该方法根据NMIBC患者的临床信息进行分组,利用转录组数据筛选不同分组差异表达基因进行聚类分析,以差异基因群的标准化表达值为分子特征筛选预后预测分子标志物。本发明专利技术还公开了NMIBC预后预测模型的构建方法。本发明专利技术通过NMIBC患者转录组高通量测序数据,结合差异分析、聚类模式识别和机器学习特征选择等方法,筛选出与NMIBC恶性进展为MIBC高度相关的分子预测标志物,根据标志物基因表达数据对NMIBC患者是否向MIBC恶性进展及进展快慢的肿瘤病变阶段进行分子预测分析,从而为NMIBC恶性进展的动态监控和预后提供了快速、有效、无创的分子检测方法。无创的分子检测方法。无创的分子检测方法。

【技术实现步骤摘要】
NMIBC预后预测分子标志物、筛选方法及建模方法


[0001]本专利技术涉及泌尿肿瘤医学领域,特别是涉及基于转录组基因表达数据的非肌层浸润型膀胱癌(NMIBC)患者向肌层浸润型膀胱癌(MIBC)恶性进展及进展速度快慢预测的分子标志物的筛选和鉴定。

技术介绍

[0002]尿路上皮非肌层浸润型膀胱癌(non

muscle

invasive bladder cancer,NMIBC)是最常见的膀胱癌类型,50%

70%的NMIBC患者出现疾病复发,高达20%的NMIBC患者进展为肌肉浸润型膀胱癌(muscle

invasive bladder cancer,MIBC)。NMIBC进展为MIBC与肿瘤分期和分级相关。因此,尽管NMIBC患者5年生存率良好(>90%),但大多数患者必须接受终生膀胱镜检查和多种治疗干预,而NMIBC患者一旦进展为MIBC,其预后风险和治疗手段将发生很大变化。对于NMIBC患者而言,肿瘤细胞转移可能性较少,可以行经尿道膀胱电切或激光剜除术。由于NMIBC容易复发,即使肿瘤恶性程度较低,术后也需要密切随访,包括膀胱内灌注化疗和定期膀胱镜检查。即使NMIBC恶性程度较低,也有一部分患者约20%会出现疾病进展,转变成MIBC。定期随访和疾病监控有利于及时发现NMIBC的复发和进展。而对于MIBC患者而言,由于肿瘤已经侵犯膀胱肌层,肿瘤细胞通过血管和淋巴向周围及远处转移的可能性大大增加,原则上对于MIBC患者需要膀胱全切和盆腔淋巴结清扫,同时行尿流改道手术。如果NMIBC进展成MIBC,不仅膀胱全切除将对患者生活质量带来极大麻烦,而且肿瘤转移风险也会大大增加。因此在NMIBC患者预后和动态监控中,开发NMIBC患者向MIBC恶性进展的分子预测标志物具有重大的临床应用意义,可以实时监控NMIBC患者是否有向MIBC发生恶性进展的潜能,以及NMIBC发生恶性进展的速度。而目前临床和医学研究中很少针对NMIBC患者向MIBC恶性进展开发有效的分子预测标志物。
[0003]关于NMIBC患者向MIBC恶性进展的研究中,以往研究有发现少量基因与NMIBC向MIBC恶性进展有关,但基本上很少有研究专门针对NMIBC患者向MIBC恶性进展的预后监控阶段开发无创分子预测标志物,包括“NMIBC患者是否向MIBC恶性进展”和“NMIBC患者向MIBC进展快慢”的肿瘤病变阶段。以往研究中,一般认为NMIBC的高危患者即pT1高级别肿瘤患者很可能会进展为MIBC。对于高风险即pT1肿瘤患者,以往研究发现p53的积累与NMIBC患者膀胱内复发、进展为MIBC相关,但也有研究表明p53不能预测NMIBC患者的临床进展结果。另外,有研究者针对929名pT1尿路上皮膀胱癌患者的26项研究进行荟萃分析发现,p53可以预测NMIBC患者是否进展为MIBC。除了p53,以往研究实验报告了在NMIBC患者中p21的缺失与膀胱内复发、MIBC进展以及总体生存率OS降低有关,不过其它研究并没有验证出p21与NMIBC预后的关联性。

技术实现思路

[0004]本专利技术要解决的技术问题之一是提供一种非肌层浸润型膀胱癌预后预测分子标志物的筛选方法,它可以筛选出与NMIBC恶性进展为MIBC高度相关的分子预测标志物,实现
对NMIBC患者的无创预后预测。
[0005]为解决上述技术问题,本专利技术的非肌层浸润型膀胱癌预后预测分子标志物的筛选方法,主要包括以下步骤:
[0006]获取NMIBC患者样本的转录组数据和临床信息,根据NMIBC进展情况分组;
[0007]将转录组基因表达谱数据转化为原始reads count表达谱数据;
[0008]筛选不同分组之间的差异表达基因;
[0009]对所述差异表达基因的reads count表达谱数据进行标准化;
[0010]基于所述差异表达基因的标准化表达值对所述NMIBC患者样本进行聚类分析,获得差异基因群;
[0011]以所述差异基因群的标准化表达值作为分子特征,利用机器学习分类算法,筛选NMIBC预后预测分子标志物。
[0012]上述临床信息包括NMIBC是否进展为MIBC、NMIBC在多长时间内发生了向MIBC的恶性进展,可以根据不同的预测目的,选择不同的临床信息。
[0013]上述转录组基因表达谱为FPKM基因表达谱,将FPKM基因表达谱数据转化为reads count表达谱数据,可以采用如下方法:
[0014]获取每个样本的测序reads数量信息;
[0015]计算每个基因编码区域的长度;
[0016]将FPKM基因表达谱数据转换为reads count表达谱数据,转换公式为:
[0017][0018]其中,i为样本编号,j为基因编号,R
ij
为样本i基因j的reads count数值,F
ij
为样本i基因j的FPKM数值,L
j
为基因j的编码区域长度,T
i
为样本i的测序reads数量。
[0019]上述差异表达基因的筛选,可以采用如下方法:
[0020]设计分组矩阵;
[0021]进行不同分组的差异表达分析;
[0022]过滤掉差异表达基因中低丰度且变化小的基因,获得不同分组的差异表达基因分析结果;
[0023]根据校正后的P值<0.05、倍数变化log2转换值的绝对值>1、倍数变化log2转换值的标准误差<1三个阈值筛选差异表达基因。
[0024]上述差异表达基因的reads count表达谱数据的标准化,可以采用如下方法:
[0025]对样本的原始reads count表达值进行基因编码区域长度的标准化,计算公式为:
[0026][0027]其中,i为样本编号,j为基因编号,N
ij
为样本i基因j的编码区域标准化表达值,R
ij
为样本i基因j的原始reads count表达值,L
j
为基因j的编码区域长度;
[0028]对样本的编码区域标准化表达值进行TPM标准化,计算公式为:
[0029][0030]其中,i为样本编号,j为基因编号,TPM
ij
为样本i基因j的TPM标准化表达值,N
ij
为样本i基因j的编码区域标准化表达值,total genes in sample i为样本i中所有基因总数。
[0031]上述聚类分析方法优选为:利用pheatmap工具的pheatmap函数,基于差异表达基因的标准化表达值,对样本进行层次聚类分析,挑选在分组中具有明显聚类特征的差异基因群。
[0032]上述利用机器学习分类算法筛选NMIBC预后预测分子标志物的方法,优选为:利用随机森林的机器学习分类算法,构建随机森林模型,并评估本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.非肌层浸润型膀胱癌预后预测分子标志物的筛选方法,其特征在于,步骤包括:获取NMIBC患者样本的转录组数据和临床信息,根据NMIBC进展情况分组;将转录组基因表达谱数据转化为原始reads count表达谱数据;筛选不同分组之间的差异表达基因;对所述差异表达基因的reads count表达谱数据进行标准化;基于所述差异表达基因的标准化表达值对所述NMIBC患者样本进行聚类分析,获得差异基因群;以所述差异基因群的标准化表达值作为分子特征,利用机器学习分类算法,筛选NMIBC预后预测分子标志物。2.根据权利要求1所述的方法,其特征在于,所述临床信息包括NMIBC是否进展为MIBC。3.根据权利要求1所述的方法,其特征在于,所述临床信息包括NMIBC在多长时间内发生了向MIBC的恶性进展。4.根据权利要求1所述的方法,其特征在于,所述转录组基因表达谱为FPKM基因表达谱,将所述FPKM基因表达谱数据转化为reads count表达谱数据的方法,包括如下步骤:获取每个样本的测序reads数量信息;计算每个基因编码区域的长度;将FPKM基因表达谱数据转换为reads count表达谱数据,转换公式为:其中,i为样本编号,j为基因编号,R
ij
为样本i基因j的reads count数值,F
ij
为样本i基因j的FPKM数值,L
j
为基因j的编码区域长度,T
i
为样本i的测序reads数量。5.根据权利要求1所述的方法,其特征在于,所述筛选不同分组之间的差异表达基因的方法,包括如下步骤:设计分组矩阵;进行不同分组的差异表达分析;过滤掉差异表达基因中低丰度且变化小的基因,获得不同分组的差异表达基因分析结果;根据校正后的P值<0.05、倍数变化log2转换值的绝对值>1、倍数变化log2转换值的标准误差<1三个阈值筛选差异表达基因。6.根据权利要求1所述的方法,其特征在于,对所述差异表达基因的reads count表达谱数据进行标准化的方法,包括如下步骤:对样本的原始reads count表达值进行基因编码区域长度的标准化,计算公式为:其中,i为样本编号,j为基因编号,N
ij
为样本i基因j的编码区域标准化表达值,R
ij
为样本i基因j的原始reads count表达值,L
j
为基因j的编码区域长度;对所述编码区域标准化表达值进行TPM标准化,计算公式为:
其中,i为样本编号,j为基因编号,TPM
ij
为样本i基因j的TPM标准化表达值,N
ij
为样本i基因j的编码区域标准化表达值,total genes in sample i为样本i中所有基因总数。7.根据权利要求1所述的方法,其特征在于,利用pheatmap工具的pheatmap函数,基于差异表达基因的标准化表达值,对样本进行层次聚类分析,挑选在分组中具有明显聚类特征的差异基因群。8.根据权利要求1所述的方法,其特征在于,利用随机森林的机器学习分类算法,构建随机森林模型,并评估差异基因群的每个基因特征在模型构建中的重要性,挑选重要基因特征,作为NMIBC预后预测分子标志物。9.根据权利要求1所述的方法,其特征在于,所述预测NMIBC患者向MIBC恶性进展的385个分子标志物为基因LOC100288637、Lnc

MFAP4

3、CDKN3、ELOVL5、Lnc

FAM71E1

2、BUB1B、UGT1A10、RPLP1、JPH4、EXO1、CKAP2L、DSG3、CENPF、ADAM2、C5orf34、AFF3、TCF7、Lnc

FAM110B

4、LGR5、SLC5A4

AS1、GCNT2、SERPINB2、LPCAT1、AURKB、AKR1B10、PPP1R14D、ADGRB1、PSAT1、KDELR3、CENPI、ACRV1、ACKR3、GMFG、FBXO43、NPAP1 Pseudogene、SGPP1、COL4A4、IGFL1、NUDT19

DT、KRTAP5

AS1、CRHR1、Lnc

ZNF627

2、GKN1、FABP1、OLFML2B、SH3GL2、RSPO4、CYP2D6、SERPINB9、CLIC3、FN1、TRIB3、FOXD2

AS1、CDC20、LOC100505851、ARHGAP11A、CHEK1、HCG27、FEN1、Lnc

ATMIN

1、PCDHGB7、GBP6、PMEL、ATP6V0E2、CYP51A1、PCSK9、GDA、CEACAM5、CBX2、CTSV、TNFSF12

TNFSF13、LOC730338、KRT6C、CCN1、INHBA、ZNF367、SEC14L2and MTP18、ABCA9、TM4SF1、STX11、PTTG2、KCNG1、MS4A8、FOXD2、MAL、LINC02228、LINC01291、DHCR24、Lnc

NDC80

3、ARID3A、ZNF492、CNNM1、GNAL、LINC00470、COL6A5、IL36G、TTYH1、Lnc

MMRN1

12、UPK1B、OIP5、FOXP2、FREM2、EPGN、OLFM4、SLCO5A1、FAM3D、PPP1R14C、FSTL5、GFRA1、DLG2、ANP32E、HMGB3、COPZ1、CCNB2、FADS1、PTPRN2、BCL11A、ZWINT、H2BC11、CALML3

AS1、CACNA1I、LY75

CD302、DHCR24

DT、SLC7A11

AS1、TRBC2、SCD、BAIAP3、HAND2、TCHH、PCNA、BMP7、TSPAN18、TXNRD1、MSMO1、FAM83D、LINC01687、CASP14、SPOCK3、STRIP2、MEGF6、AKR1B1、FBLN5、TG、EME1、LINC01122、GATA2、ABI3BP、LGALS9、Lnc

SLC39A8

1、PHF24、CLDN4、PCDHB5、MKRN3、SLC30A2、Lnc

FAM47B

1、CDK1、CEACAM6、SEMA6A

AS2、LRRC3B、SHISA6、TMPRSS13、DUSP2、CLSPN、TBX1、TFF3、GCLM、PHEX、FANCI、SNAI3、RHBDL2、RHOV、SALL4、PDE6B、CD8A、LINC01460、KIF4A、ESCO2、ORC6、RTKN2、CHAF1B、Lnc

CTNND2

1、Lnc

SLIT2

1、GPD1L、EGF、Lnc

CDH9

6、BLOC1S5

TXNDC5、Lnc

ZNF362

1、SLC26A9、TNS4、CCDC148、TRGV8、HLF、FER1L6、XRCC2、PRC1、H2AZ1

DT、C3orf20、TTR、AREG、ATP1B2、GRAMD2A、CLDN5、NEK2、IGFL2

AS1、CDCA8、MEX3B、ULBP1、PLAC1、GLYATL1、SCARA5、PIP、S1PR3、Lnc

SPRED2

4、INSIG1、ZNF467、SMAD6、ATOH8、SLC39A2、LINC02432、STAB2、RNASEH2A、SMIM10、SPC25、H2AC11、KNSTRN、TNFRSF14

AS1、SLC23A1、PTGDR2、LINC01194、KCNQ1、H1

6、RNA5

8SP6、CRTAC1、EID3、DBI、SKA1、CYTB、Lnc

USP35

6、PLA2G2A、CREB3L1、BASP1、SOWAHA、CYP4F2、MT

RNR1、DUOXA2、WNT7B、FXYD6、SLC51A、ALMS1

IT1、TCF21、LIMD2、MAP3K9

DT、MMP13、L3MBTL4、SLC1A6、Lnc

FOXG1

4、DPEP2、LGALSL、VSIG10L、RAI2、TRMT9B、SPRR3、MAG、GDPD3、BPIFB1、SHCBP1、Lnc

PUS3

1、PRSS8、ST3GAL5

AS1、LINC02086、ASRGL1、
ZNF761、RRM2、TYMSOS、HSALNG0121262、SPTSSA、PRR11、GALNT13、DLGAP5、GEN1、EIF4EBP3、LOC100507403、CLCF1、FOSB、POLQ、FADS2、HSALNG0069298、DHCR7、MYT1L、CCNE2、RIC3、FANCB、ZFPM1、AMZ1、ANGPTL6、CENPN、SULT1B1、NAMPTP1、Novel V

Set Domain

Containing Pseudogene、C12orf75、CCDC190、FLRT3、PCDH7、LINC02595、PIEZO2、FAM133A、RGS20、Lnc

CCDC125

6、RNU2

2P、ACAN、Lnc

ITPRIPL2

2、PLCXD3、LINC00648、HSPA4L、HASPIN、ACADL、MB、LOC105374344、ANLN、SPC24、RPLP2、VWA5B1、CRNN、RBP5、Lnc

ZNF682

1、PSG4、BRIP1、RDH12、FCMR、PPM1N、CIDEB、PIMREG、ND3、ANKHD1

EIF4EBP3、NUSAP1、METTL7B、ASTL、CELF6、FGF11、KRT6A、RAB36、FGFBP1、BEND4、Lnc

SH2D3A

2、DEPDC1、TOP2A、EREG、GINS1、DLGAP3、KIF15、MT

RNR2、PIWIL1、NALCN

AS1、RGS22、CXCL1、LYVE1、RP11

336A10.4、HOXB7、SGO1、PEG3、Lnc

ERAP1

2、CD36、SLC9A2、CDC6、ABCA12、AGBL4、TMEM150C、FBN2、PYCR1、ERCC6L、CFAP92、KRT14、CST1、JPH3、Lnc

OR4F3

5、KRT24、CFAP46、J3QT63、HAGHL、ZNF695、CYP26B1、LINC02055、DNAH11、AKR1B15、ATP13A4。10.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:薛蔚杨国良
申请(专利权)人:上海交通大学医学院附属仁济医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1