基于MLP构建结直肠癌血清外泌体miRNA诊断分类器制造技术

技术编号:36115813 阅读:65 留言:0更新日期:2022-12-28 14:19
本发明专利技术涉及一种基于MLP构建结直肠癌血清外泌体miRNA诊断分类器,建立步骤为:通过分析CRC肿瘤样本和正常样本的血清miRNA表达数据,得到具有差异的血清外泌体miRN;根据特征重要性排序和递归消除确定关键特征,结合增量特征选择(IFS)识别最优基因作为诊断生物标志物,得到由4个miRNA构建的神经网络(MLP)分类器;PCA降维和样品层次聚类分析显示4个特征miRNA能较好区分CRC患者和健康个体;其中miR

【技术实现步骤摘要】
基于MLP构建结直肠癌血清外泌体miRNA诊断分类器


[0001]本专利技术涉及基因工程
,具体地说,是一种基于MLP构建结直肠癌血清外泌体miRNA诊断分类器。

技术介绍

[0002]结直肠癌(CRC)是常见的消化道恶性肿瘤,具有复发频繁、抵抗治疗和易转移等特点,是人类最致命的恶性肿瘤之一,目前缺乏有效的早期诊断方法。尽管近些年来诊断技术和治疗技术有所提升,但CRC预后仍不理想,早期快速诊断对患者治疗和生存具有重要意义,急需开发新的诊断标志物,用于CRC早期诊断以改善患者预后。
[0003]肿瘤标志物是由恶性肿瘤细胞异常产生的物质,能够反映肿瘤发生、发展和预测肿瘤治疗反应的一类物质。广泛存在于癌症患者肿瘤组织、血液和排泄物中,能通过免疫学、生物学和化学等方法检测。肿瘤标志物对于癌症早期临床诊断具有重要意义。CEA、CA15

3、CYFRA21

1、CA19

9和CA125等血清肿瘤标志物是临床中已被发现具有诊断价值的肿瘤标志物。CEA、CA15

3和CYFRA21

1的组合能够提高肺癌临床诊断准确性。CEA、CA19

9、CA125和CA15

3的组合能够诊断转移性乳腺癌(MBC),而且不同血清标志物的组合能用于MBC不同亚型的临床诊断。目前,肿瘤诊断标志物的敏感性不佳是急需解决的问题。近年来研究发现miRNA在癌症发展、诊断和预后中发挥重要作用,miRNA有可能是癌症诊断标志物的新方向,miRNA大量存在于人体血液中,易收集和更好的稳定性使其成为肿瘤血清标志物的新宠。
[0004]机器学习是现代医学非常重要的研究手段,在生物信息学领域,机器学习主要用于疾病诊断标志物筛选和预后模型的构建,在挖掘癌症诊断标志物和预后标志物等研究中具有重大潜力。将miRNA作为癌症诊断标志物结合机器学习构建分类器是专利技术癌症分类及早期诊断的明智之举,目前急需挖掘更多更合适的miRNA作为分子生物标志物,将其与机器学习的分类程序相结合,对于诊断方案的确定具有重要的指导意义。

技术实现思路

[0005]鉴于此,本专利技术的目的是筛选出与可用于CRC早期诊断的血清miRNA作为生物标志物,通过机器学习算法构建相应的分类模型,基于临床样本验证分类器诊断CRC患者的有效性。
[0006]为了达到上述目的,本研究采用下述技术方案实现:
[0007]Step1:收集结直肠癌(CRC)患者的血清miRNA表达数据。以健康人的血清外泌体为对照,分析在CRC血清中有差异的miRNA。
[0008]Step2:根据差异血清外泌体miRNA表达量对患者建立行为特征与分类之间的联系,根据特征重要性排序和递归消除确定关键特征。
[0009]Step3:为保证样本均衡性,进行上采样的方法进行模型训练,并用增量特征选择(IFS)方法来识别最优miRNA作为生物标志物。
[0010]Step4:主成分分析(Principal Component Analysis,PCA)确定特征miRNA表达对健康样本与CRC样本的区分度,基于样品层次聚类揭示分类器中的特征miRNA对健康样本和CRC样本的总体区分。
[0011]Step5:募集结直肠癌患者与健康参与者作为临床受试者,收集受试者的临床信息及血清样本。
[0012]Step6:提取受试者血清样本的总RNA,逆转录获取cDNA,采用挖掘的miRNA相应的引物进行定量扩增。
[0013]Step7:统计分析健康样本与肿瘤样本中miRNA的相对表达结果,绘制箱线图及受试者工作特征曲线(ROC)评估miRNA诊断分类器的有效性。
[0014]进一步,技术方案Step1中的数据包括CRC患者血清外泌体的FPKM格式的miRNA表达数据,利用“limma”包对数据集进行标准化处理,以正常样本为对照,对标准化数据进行差异分析,筛选CRC血清有差异的miRNA(|logFC|>1.5,FDR<0.05)。
[0015]进一步,技术方案Step2通过python包“xgboost”建立行为特征与分类之间的联系,根据特征重要性排序和递归消除确定关键特征,得到5个miRNA:miR

654

5p、miR

126、miR

10b、miR

144、miR

23a,基于这5个miRNA,使用python包“sklearn”构建5个miRNA的神经网络(MLP)分类器。
[0016]进一步,技术方案Step3使用python包“imblearn”进行上采样的方法进行模型训练,并用增量特征选择来识别最优基因作为生物标志物。基于训练集每个候选miRNA的10倍交叉验证MCC绘制IFS曲线。基于IFS曲线,最终选择的MCC最高的miRNA数目截止值为4,即最终确定4个miRNA:miR

654

5p、miR

126、miR

10b、miR

144作为分类器特征。
[0017]进一步,技术方案Step4中为确定分类器对CRC和健康样本的分类效果,利用R包“FactoMineR”根据四个特征miRNA的表达量对数据集进行PCA分析。PCA分析可以降低数据集中的维数,降维后的数据可以映射到2个代表性的维度PC_1和PC_2上,可以直观呈现出样本间的组间方差。利用R包“pheatmap”对上述样本进行分层聚类。利用PCA和样本聚类分析来判断特征miRNA的诊断效果。
[0018]进一步,技术方案Step5中所有CRC患者均未得到任何治疗,同时CRC患者的癌症分期根据AJCC Cancer Staging Manual(7thEdition)进行判断。所有受试者的外周血(5ml)收集于5ml血液收集管,通过离心分离血清,并将血清储存于

80℃待提取miRNA。
[0019]进一步,技术方案Step6中利用Trizol(Invitrigen,USA)从血清中提取总RNA。使用miScript II RT kit(Qiangen,Germany)逆转录总RNA获取cDNA。基于获取的cDNA,使用Mir

X miRNA First

Strand Synthesis Kit(Takara,Japan)在Bio

Rad CFX96 qPCR仪进行定量扩增。miR

654

5p、miR

126、miR

10b、miR

144和U6(内参)的引物均购自GENEWIZ(GENEWIZ,China)。使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于诊断结肠癌的血清外泌体miRNA分类器构建方法,其步骤如下:Step1:收集结直肠癌CRC患者的血清miRNA表达数据,筛选CRC血清中表达有差异的miRNA;Step2:根据CRC患者的差异miRNA表达数据对患者建立行为特征与分类之间的联系,根据特征重要性排序和递归消除确定关键特征;Step3:为保证样本均衡性,进行上采样的方法进行模型训练,并用增量特征选择IFS方法来识别最优miRNA作为诊断生物标志物;Step4:PCA降维分析和样品层次聚类进一步验证筛选所得的最优miRNA对健康样本及肿瘤样本的区分度,初步评估特征miRNA的诊断效果;Step5:募集结直肠癌患者与健康参与者作为受试者,收集受试者的临床信息及血液样本;Step6:提取受试者血清样本的总RNA,逆转录获取cDNA,采用挖掘的miRNA相应的引物进行定量扩增;Step7:统计分析健康与肿瘤血清样本中miRNA的相对表达结果,绘制箱线图及受试者工作特征曲线ROC,评估基于miRNA构建的分类器诊断CRC的有效性。2.根据权利要求1所述一种用于诊断结肠癌的血清外泌体miRNA分类器构建方法,其特征在于,Step3中筛选出的4个最优miRNA作为CRC血清生物标志物,分别为miR

654

5p、...

【专利技术属性】
技术研发人员:胡亮肖致祥邢群通
申请(专利权)人:浙江洛兮医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1