Her2状态预测模型的构建方法和装置制造方法及图纸

技术编号:37380080 阅读:31 留言:0更新日期:2023-04-27 07:22
本申请涉及一种Her2状态预测模型的构建方法和装置,方法包括:获取多个乳腺癌样本的基因变异数据、差异基因表达数据、免疫细胞浸润数据,多个乳腺癌样本包括多个Her2阳性样本和多个Her2阴性样本;采用机器学习的方法,利用多个乳腺癌样本的基因变异数据、基因表达数据、免疫细胞浸润数据建立Her2状态预测模型。本申请创造性地使用多组学特征数据,通过机器学习的方法,构建了能够准确预测乳腺癌患者Her2状态的机器学习模型,从而避免了传统判断方法中人工判读带来得误差,提高了检测乳腺癌患者的Her2状态的准确性和可靠性。患者的Her2状态的准确性和可靠性。患者的Her2状态的准确性和可靠性。

【技术实现步骤摘要】
Her2状态预测模型的构建方法和装置


[0001]本申请涉及癌症
,具体而言,涉及一种Her2状态预测模型的构建方法和装置。

技术介绍

[0002]乳腺癌世界上最常见的癌症之一,并且乳腺癌发病率逐年上升。多数乳腺癌早期患者手术预后较好,然而,约25%

30%的乳腺癌患者癌组织中Her2受体存在高表达的情况,这些患者的预后明显低于Her2低表达的患者,并且Her2阳性患者容易发生复发转移。
[0003]Her2基因是人体的一种原癌基因,正常状态下,人体存在着原癌基因及抑癌基因,两种基因相互作用,在体内起到制约平衡的作用。Her2基因高表达可引起癌细胞的分裂与增殖,因此,Her2阳性患者需要进行针对Her2的靶向治疗。
[0004]Her2是乳腺癌靶向治疗靶点之一,多种Her2单克隆抗体药物可以作为Her2阳性患者治疗药物,Her2阳性患者的预后也越来越好。目前常见检测Her2阳性的方法为免疫组化,免疫组化结果可以区分Her2高表达3+的患者为阳性,0患者为阴性,处于中间状态1+和2+患者判定需要借助FIS本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种Her2状态预测模型的构建方法,其特征在于,包括:获取多个乳腺癌样本的基因变异数据、基因表达数据、免疫细胞浸润数据,所述多个乳腺癌样本包括多个Her2阳性样本和多个Her2阴性样本;基于所述多个乳腺癌样本的基因变异数据、基因表达数据、免疫细胞浸润数据生成包括每个样本的基因变异特征数据、差异基因表达特征数据、免疫细胞浸润特征数据的训练数据集;利用所述训练数据集训练机器学习模型,根据样本的基因变异特征、差异基因表达特征和免疫细胞浸润特征对机器学习模型的分类贡献度筛选目标特征集,基于所述目标特征集构建Her2状态预测模型,所述目标特征集包括目标基因变异特征、目标差异基因表达特征、目标免疫细胞浸润特征。2.根据权利要求1所述的构建方法,其特征在于,基于所述多个乳腺癌样本的基因变异数据、基因表达数据、免疫细胞浸润数据生成包括每个样本的基因变异特征数据、差异基因表达特征数据、免疫细胞浸润特征数据的训练数据集具体包括:基于所述基因变异数据选取变异频率高于3%的点突变基因以及拷贝数变异基因作为候选变异基因,根据每个样本中候选变异基因变异与否生成训练数据集中每个样本的基因变异特征数据;基于所述差异基因表达数据中选取同时满足表达量平均值>1、表达量为0的样本之和占比<90%且在多个Her2阳性样本和多个Her2阴性样本中差异表达三个条件的基因作为候选差异基因,根据每个样本的候选差异基因的表达量生成训练数据集中每个样本的差异基因表达特征数据;基于所述免疫细胞浸润数据获取每个样本22种免疫细胞的相对丰度数据,根据每个样本22种免疫细胞的相对丰度数据生成训练数据集中每个样本的免疫细胞浸润特征数据。3.根据权利要求2所述的构建方法,其特征在于,所述机器学习模型为随机森林模型。4.根据权利要求3所述的构建方法,其特征在于,所述目标基因包括ERBB2、CDK12和TP53中的至少一种;所述目标差异基因包括NEUROD4、DMRTC2、PAX7、LIN28B、RGR、LYPD4、PDX1、C1orf94、ZP2、SPHKAP、PRDM13、RIPPLY2、MMP20、CSN3、NEUROD2、C9orf135和KRT77中的至少一种;所述目标免疫细胞包括初始CD4 T细胞和静息NK细胞中的至少一种。5.一种Her2状态预测模型的构建装置,其特征在于,包括:样本数据获取模块:用于获取多个乳腺癌样本的基因变异数据、基因表达数据、免疫细胞浸润数据,所述多个乳腺癌样本包括多个Her2阳性样本和多个Her2阴性样本;训练数据集生成模块:用于基于所述多个乳腺癌样本的基因变异数据、基因表达数据、免疫细胞浸润数据生成包括每个样本的基因变异特征数据、差异基因表达特征数据、目标免疫细胞浸润特征数据的训练数据集;Her2状态预测模型构建模块:用于利用所述训练数据集训练随机器学习模型,根据样本的基因变异特征、差异基因表达特征和免疫细胞浸润特征对机器学习模型的分类贡献度筛选目标特征集,基于所述目标特征集构建Her2状态预测模型,所述目标特征集包括目标基因变异特征、目标差异基因表达特征、目标免疫细胞浸润特征。6.根据权利要求5所述的构建装置,其特征在于,所述训练数据集生成模块具体包括:
基因变异特征数据生成单元:用于基于所述基因变异数据获取变异频率高于3%的点突变基因以及拷贝数变异基因作为候选变异基因,根据每个样本中候选变异基因变异与否生成训练数据集中每个样本的基因变异特征数据;差异基因表达特征数据生成单元:用于基于所述差异基因表达数据选取同时满足表达量平均值>1、表达量为0的样本之和占比<90%且在多个Her2阳性样本和多个Her2阴性样本中差异表达三个条件的基因作为候选差异基因,根据每个样本的候选差异基因的的表达量生成训练数据集中每个样本的差异基因表达特征数据;免疫细胞...

【专利技术属性】
技术研发人员:宋智健车月卢磊磊
申请(专利权)人:上海至本医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1