一种胃癌预后预测的标志物制造技术

技术编号:39648769 阅读:11 留言:0更新日期:2023-12-09 11:16
本发明专利技术公开了一种胃癌预后预测的标志物

【技术实现步骤摘要】
一种胃癌预后预测的标志物、评估模型及其构建方法


[0001]本专利技术属于生物信息与生物标志物
,特别是涉及一种胃癌预后预测的标志物

评估模型及其构建方法


技术介绍

[0002]五年生存率
(FYSR)
是评价癌症患者外科治疗有效性的重要临床指标

这也是医生在病人出院时制定预后治疗计划的重要参考,包括放疗或化疗的频率

药物类型和身体复查的周期等

根据美国癌症协会的数据,世界范围内死亡率最高的四种恶性肿瘤
(
包括肺癌

肝癌

胃癌和结直肠癌
)

FYSRs
分别为
17

、26

、32
%和
64


为了提高预后存活率,他们的标准化治疗方案通常比其他肿瘤更复杂

因此,对
FYSR
的准确和合理的预测可以明确地控制关于肿瘤预后生物学的预测信息,并从本质上提高癌症患者的存活率

不幸的是,现实依然严峻

当前的
FYSR
通常使用肿瘤分期作为临床邻近点

由于肿瘤分期是根据癌症患者五年生存期的临床统计数据确定的,这种以平均数据为标准的经典统计方法缺乏个性
(
例如肿瘤异质性的影响
)
,降低了癌症患者的生存率

因此,有必要根据更多的或者其他的生物指标构建一种胃癌预后预测的评估模型,比如基于个体特征如基因工程开发
FYSR
预测模型

[0003]最近,人工智能
(AI)
驱动的基因工程为肿瘤的个体精确诊断和预后治疗提供了许多机会,并在上述领域取得了快速进展

在这些研究范式中,准确性是一个需要追求的重要参数,它取决于肿瘤基因突变的特征提取和算法模型

以癌症
(GC)
为例,许多研究表明,单碱基取代
(SBS)18
的特征作为一种与活性氧物种相关的突变特征,其
CDH1
引起的高突变负荷的特征可以作为准确预后和评估
GC
的潜在特征
。SBS44
是一种与
DNA
错配修复
(MMR)
缺陷相关的突变特征,在本专利技术中指出其是胃癌的另外一个特征图谱预后特征

在以往的技术实现中,均没有通过基因突变结合突变图谱特征这种预后因子一起进行预测五年存活率的案例


技术实现思路

[0004]本专利技术的目的是提供一种胃癌预后预测的标志物

评估模型及其构建方法,以解决上述现有技术存在的问题

[0005]为实现上述目的,本专利技术提供了一种胃癌预后预测的标志物

评估模型及其构建方法,包括:
[0006]获取若干个胃癌数据集进行预处理;对预处理后的若干个胃癌数据集进行特征图谱提取
,
同时对各个数据集进行单独的特征图谱分解;
[0007]通过
RNMF
方法包的相似性评估函数对分解的特征图谱与
COSMIC
数据库的特征图谱进行注释,标识出胃癌全部的分解的特征图谱;对胃癌全部的分解的特征图谱进行生存分析,提取与预后相关的
SBS18

SBS44
作为预后因子;
[0008]通过
RNMF
方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因,
并且采用
DRP
算法判断关联基因之间是否存在互斥关系;
[0009]基于显著性关联基因与互斥关系判断结果构建
CCA
算法模型;
[0010]基于预后因子的特征图谱与关联基因,通过
CCA
算法模型获得
CCA
矩阵数据,基于
CCA
矩阵数据构建五年生存率模型,采用随机森林算法作为核心算法获得五年生存率的标志物

[0011]可选的,获取若干个胃癌数据集并进行预处理的过程包括:
[0012]检索与胃癌相关的文献,根据所述文献获得全基因组测序的体细胞单碱基突变数据以及对应样本的临床表型信息,形成若干个胃癌数据集;并对若干个胃癌数据集中的体细胞单碱基突变数据进行注释

[0013]可选的,获取突变特征图谱的过程包括:采用
RNMF
方法包对处理后的若干个胃癌数据集进行非负定矩阵分解,提取对应的突变特征图谱

[0014]可选的,所述
CCA
算法模型如下:
[0015][0016]式中,
C(s,g)
表示肿瘤样本
n
中基因
g
在突变特征图谱
s
上的累计贡献度,
θ
(sg,mn)
表示这个肿瘤样本
n
中基因
g
在突变特征图谱
s
上突变类型
m
的贡献,
ρ
(s,mn)
则表示肿瘤样本
n
在突变进程中突变类型
m
的影响,
P
是突变特征矩阵,
S
是样本贡献度矩阵,
PmkSkn
代表肿瘤样本
n
中突变类型
m
对突变特征图谱
k
的影响,是基因
g
在肿瘤样本
n
中的突变类型
m
的影响因子

[0017]可选的,
[0018]构建五年生存率模型的过程包括:
[0019]根据若干个胃癌测试集获得模型训练集与模型测试集,基于模型训练集与模型测试集,应用
R

随机森林进行分析获得五年生存率预测模型

[0020]可选的,
[0021]获取初始训练集与初始测试集的过程包括:
[0022]将若干个胃癌数据集根据生存时间与存活状态划分为四个组别,将满足生存时间与存活状态要求的数据进行二次分割,获得两个独立的数据集,分别作为初始训练集和初始测试集

[0023]可选的,获得五年生存率预测模型的过程还包括:
[0024]在初始训练集中提取预设比例的数据进行合并后进行扩充,并过滤掉均值小于
0.001
的属性特征,获得第一训练集;
[0025]采用随机森林算法训练第一训练集,构建多组模型集合;
[0026]每组模型分别测试评估初始训练集与初始测试集,循环上述过程不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种胃癌预后预测的标志物

评估模型及其构建方法,其特征在于,包括以下步骤:获取若干个胃癌数据集进行预处理;对预处理后的若干个胃癌数据集进行特征图谱提取
,
同时对各个数据集进行单独的特征图谱分解;通过
RNMF
方法包的相似性评估函数对分解的特征图谱与
COSMIC
数据库的特征图谱进行注释,标识出胃癌全部的分解的特征图谱;对胃癌全部的分解的特征图谱进行生存分析,提取与预后相关的
SBS18

SBS44
作为预后因子;通过
RNMF
方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因,并且采用
DRP
算法判断关联基因之间是否存在互斥关系;基于显著性关联基因与互斥关系判断结果构建
CCA
算法模型;基于预后因子的特征图谱与关联基因,通过
CCA
算法模型获得
CCA
矩阵数据,基于
CCA
矩阵数据构建五年生存率模型,采用随机森林算法作为核心算法获得五年生存率的标志物
。2.
根据权利要求1所述的胃癌预后预测的标志物

评估模型及其构建方法,其特征在于,获取若干个胃癌数据集并进行预处理的过程包括:检索与胃癌相关的文献,根据所述文献获得全基因组测序的体细胞单碱基突变数据以及对应样本的临床表型信息,形成若干个胃癌数据集;并对若干个胃癌数据集中的体细胞单碱基突变数据进行注释
。3.
根据权利要求1所述的胃癌预后预测的标志物

评估模型及其构建方法,其特征在于,获取突变特征图谱的过程包括:采用
RNMF
方法包对处理后的若干个胃癌数据集进行非负定矩阵分解,提取对应的突变特征图谱
。4.
根据权利要求1所述的胃癌预后预测的标志物

评估模型及其构建方法,其特征在于,所述
CCA
算法模型如下:式中,
C(s,g)
表示肿瘤样本
n
中基因
g
在突变特征图谱
s
上的累计...

【专利技术属性】
技术研发人员:李振彰罗通柯万江李国
申请(专利权)人:云基智能生物科技广州有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1