当前位置: 首页 > 专利查询>南开大学专利>正文

联合病理组学特征的肿瘤差异基因表达谱预测方法及系统技术方案

技术编号:38131253 阅读:10 留言:0更新日期:2023-07-08 09:39
本发明专利技术属于计算机技术领域,提供了一种联合病理组学特征的肿瘤差异基因表达谱预测方法及系统。模型训练方法包括,根据数据病理切片数据,得到数字病理切片的特定肿瘤区域的细胞核特征谱;根据转录组学数据,得到队列基因表达矩阵;根据队列基因表达矩阵和患者临床信息,确定癌症组织和正常组织样本以及癌症样本的临床诊断分期,并进行基因差异表达分析,得到特定肿瘤的差异基因表达谱和特定肿瘤分期的差异基因表达谱;以数字病理切片的特定肿瘤区域的细胞核特征谱为输入,以该特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱为输出,训练生成式模型。本发明专利技术极大降低了样本测序成本,提高后续诊断预后效率。提高后续诊断预后效率。提高后续诊断预后效率。

【技术实现步骤摘要】
联合病理组学特征的肿瘤差异基因表达谱预测方法及系统


[0001]本专利技术属于计算机
,尤其涉及一种联合病理组学特征的肿瘤差异基因表达谱预测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]基因表达数据描述了不同条件下的细胞活动状态,与癌症患者的肿瘤发展情况有着密切关系,在指导临床给药和抗癌药物设计中具有关键作用;但基因表达数据依赖转录组测序,而测序成本昂贵,尤其对于新兴的空间转录组测序而言。
[0004]临床常规检验中,病理染色切片制作成本低;而且组织病理学的变化体现了癌症患者的肿瘤发展演化情况,因此组织病理切片被作为临床诊断和预后的金标准。近年来很多研究从数字病理切片表型分析分子层面,如基因突变等;揭示了癌症患者数字病理切片表型特征与基因分子模式的相关性。
[0005]但是,现有技术存在以下问题:
[0006]1、预测基本是基因突变、拷贝数变异等分子层面;基因表达情况预测较少;
[0007]2、基因突变和拷贝数变异信息通常是静态的不可逆的;而基因表达情况和切片表型一样是动态发展过程,因此研究病理切片表型来分析基因表达谱更有价值和意义;
[0008]3、现有的分子层面预测主要是少量特殊靶标预测,即仅选择关键、重点的基因进行表达情况预测;并且,对于关键靶标的预测是逐一预测;存在预测过程复杂、耗时长、不完整以及不全面等问题。

技术实现思路

[0009]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供一种联合病理组学特征的肿瘤差异基因表达谱预测方法及系统,其从数字病理切片表型精准预测分子层面差异基因表达情况,提高后续诊断预后效率。
[0010]为了实现上述目的,本专利技术采用如下技术方案:
[0011]本专利技术的第一个方面提供一种模型训练方法。
[0012]模型训练方法,包括:
[0013]根据数据病理切片数据,得到数字病理切片的特定肿瘤区域的细胞核特征谱;
[0014]根据转录组学数据,得到队列基因表达矩阵;根据队列基因表达矩阵和患者临床信息,确定癌症组织和正常组织样本以及癌症样本的临床诊断分期,并进行基因差异表达分析,得到特定肿瘤的差异基因表达谱和特定肿瘤分期的差异基因表达谱;
[0015]以数字病理切片的特定肿瘤区域的细胞核特征谱为输入,以该特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱为输出,训练生成式模型。
[0016]进一步地,所述得到数字病理切片的特定肿瘤区域的细胞核特征谱的过程包括:
[0017]获取数字病理切片数据,提取组织区域;
[0018]根据组织区域,提取肿瘤区域;
[0019]对肿瘤区域进行细胞核实例化分割,得到所有细胞核;
[0020]基于所有细胞核,提取细胞核特征,得到数字病理切片的特定肿瘤区域的细胞核特征谱。
[0021]进一步地,所述得到队列基因表达矩阵的过程包括:
[0022]对转录组学数据进行质控及预处理,得到第一转录组学数据;
[0023]将第一转录组学数据与参考基因组序列进行比对,并进行排序及索引,得到第二转录组学数据;
[0024]对第二转录组学数据进行read处理、表达量定量及标准化,获得队列基因表达矩阵。
[0025]进一步地,所述训练生成式模型的过程包括:
[0026]将数字病理切片的特定肿瘤区域的细胞核特征谱先变换为特征嵌入,由特征嵌入得到输出结果;
[0027]根据输出结果、该特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱,构建损失函数,对生成式模型进行优化。
[0028]更进一步地,所述细胞核特征谱与特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱的融合表示为特征嵌入。
[0029]本专利技术的第二个方面提供一种模型训练系统。
[0030]一种模型训练系统,包括:
[0031]第一数据处理模块,其被配置为:根据数据病理切片数据,得到数字病理切片的特定肿瘤区域的细胞核特征谱;
[0032]第二数据处理模块,其被配置为:基因层根据转录组学数据,得到队列基因表达矩阵;根据队列基因表达矩阵和患者临床信息,确定癌症组织和正常组织样本以及癌症样本的临床诊断分期,并进行基因差异表达分析,得到特定肿瘤的差异基因表达谱和特定肿瘤分期的差异基因表达谱;
[0033]训练模块,其被配置为:以数字病理切片的特定肿瘤区域的细胞核特征谱为输入,以该特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱为输出,训练生成式模型。
[0034]本专利技术的第三个方面提供一种联合病理组学特征的肿瘤差异基因表达谱预测方法。
[0035]联合病理组学特征的肿瘤差异基因表达谱预测方法,包括:
[0036]根据待测患者的肿瘤区域,提取肿瘤区域细胞核特征谱;
[0037]基于肿瘤区域细胞核特征谱,采用生成式模型,得到特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱;所述生成式模型通过第一个方面所述的模型训练方法得到。
[0038]本专利技术的第四个方面提供一种联合病理组学特征的肿瘤差异基因表达谱预测系统。
[0039]联合病理组学特征的肿瘤差异基因表达谱预测系统,包括:
[0040]特征提取模块,其被配置为:根据待测患者的肿瘤区域,提取肿瘤区域细胞核特征谱;
[0041]预测模块,其被配置为:基于肿瘤区域细胞核特征谱,采用生成式模型,得到特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱;所述生成式模型通过第一个方面所述的模型训练方法得到。
[0042]本专利技术的第五个方面提供一种计算机可读存储介质。
[0043]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一个方面所述的模型训练方法,或实现如第三个方面所述的联合病理组学特征的肿瘤差异基因表达谱预测方法中的步骤。
[0044]本专利技术的第六个方面提供一种计算机设备。
[0045]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一个方面所述的模型训练方法,或实现如第三个方面所述的联合病理组学特征的肿瘤差异基因表达谱预测方法中的步骤。
[0046]与现有技术相比,本专利技术的有益效果是:
[0047](1)本专利技术通过构建分子层面转录组学差异基因表达谱,可以快速精准地定位肿瘤患者肿瘤相关基因集合,推进后续临床个体化用药治疗。
[0048](2)本专利技术实现了从数字病理切片表型精准预测分子层面差异基因表达情况,全面预测基因的表达情况,提高了预测的效率,极大降低了样本测序成本,提高了后续诊断预后效率。
[0049](3)本专利技术建立了数字病理切片表型细胞核特征谱和分子层面差异基因表达谱的关联,实现了多组学融合表示;可以为基于多组学多模态生物信息肿本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.模型训练方法,其特征在于,包括:根据数据病理切片数据,得到数字病理切片的特定肿瘤区域的细胞核特征谱;根据转录组学数据,得到队列基因表达矩阵;根据队列基因表达矩阵和患者临床信息,确定癌症组织和正常组织样本以及癌症样本的临床诊断分期,并进行基因差异表达分析,得到特定肿瘤的差异基因表达谱和特定肿瘤分期的差异基因表达谱;以数字病理切片的特定肿瘤区域的细胞核特征谱为输入,以该特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱为输出,训练生成式模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述得到数字病理切片的特定肿瘤区域的细胞核特征谱的过程包括:获取数字病理切片数据,提取组织区域;根据组织区域,提取肿瘤区域;对肿瘤区域进行细胞核实例化分割,得到所有细胞核;基于所有细胞核,提取细胞核特征,得到数字病理切片的特定肿瘤区域的细胞核特征谱。3.根据权利要求1所述的模型训练方法,其特征在于,所述得到队列基因表达矩阵的过程包括:对转录组学数据进行质控及预处理,得到第一转录组学数据;将第一转录组学数据与参考基因组序列进行比对,并进行排序及索引,得到第二转录组学数据;对第二转录组学数据进行read处理、表达量定量及标准化,获得队列基因表达矩阵。4.根据权利要求1所述的模型训练方法,其特征在于,所述训练生成式模型的过程包括:将数字病理切片的特定肿瘤区域的细胞核特征谱先变换为特征嵌入,由特征嵌入得到输出结果;根据输出结果、该特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱,构建损失函数,对生成式模型进行优化。5.根据权利要求4所述的模型训练方法,其特征在于,所述细胞核特征谱与特定肿瘤的差异基因表达谱和该特定肿瘤分期的差异基因表达谱的融合表示为特征嵌入。6.一种模型训练系统,其特征在于,包括:第一数据处理模块,其被配置为:根据数据病理切片数据,得到数字病理切片的特定肿瘤区域的细胞核特征谱;第二...

【专利技术属性】
技术研发人员:刘健闫朝阳陈娇
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1