用于预测肝癌特征类型的方法、电子设备和计算机存储介质技术

技术编号:33351008 阅读:56 留言:0更新日期:2022-05-08 09:56
本公开涉及一种用于预测肝癌特征类型的方法、计算设备和存储介质。该方法包括:基于关于待测对象的肿瘤样本的比对结果数据,生成关于待测对象的肿瘤样本的多种预定基因的基因组变异数据;获取关于待测对象的临床数据;确定关于待测对象的肿瘤突变负荷信息;获取关于待测对象的免疫检查点分子表达数据;至少基于基因组变异数据、临床数据、肿瘤突变负荷信息和免疫检查点分子表达数据,生成预测模型的输入数据;以及基于经由多样本训练的预测模型,预测模型是基于神经网络模型所构建的。本公开能够提高预测肝癌特征类型的可靠性,而且具有良好的临床适用的泛化性。良好的临床适用的泛化性。良好的临床适用的泛化性。

【技术实现步骤摘要】
用于预测肝癌特征类型的方法、电子设备和计算机存储介质


[0001]本公开总体上涉及生物信息处理,并且具体地,涉及用于预测肝癌特征类型的方法、电子设备和计算机存储介质。

技术介绍

[0002]研究表明,肝细胞癌(hepatocellular carcinoma,HCC)患者术后年复发率高达50%,是影响早期HCC患者术后长期生存的主要因素。因此,准确预测肝癌特征类型以用于辅助判断肝癌复发风险具有重要的意义。
[0003]传统的用于预测肝癌复发风险的方法例如包括:通过构建胞嘧啶

鸟嘌呤二核苷酸(CpG)甲基化标签来预测早期HCC术后复发风险,或者基于影像组学、视觉分析、临床病理等多维度信息来构建早期HCC复发预测模型。上述传统的预测方法虽然展现出了一定的预测能力,但是由于全基因组的甲基化水平检测目前尚未常规用于临床工作,因此缺乏临床证据支持,以及影像组学等图像结果判读需要辅以丰富的专家经验并且费时费力,进而导致临床转化的实际应用价值有限。
[0004]综上,传统的用于预测肝癌复发风险的方法存在的不足之处在于:或者需要辅以专家经验,或者缺乏临床证据支持,因而,难以同时兼顾临床适用的泛化性和预测结果的可靠性。

技术实现思路

[0005]本公开提供一种预测肝癌特征类型的方法、电子设备和计算机存储介质,不仅能够提高预测肝癌特征类型的可靠性,而且具有良好的临床适用的泛化性。
[0006]根据本公开的第一方面,提供了一种用于预测肝癌特征类型的方法。该方法包括:基于关于待测对象的肿瘤样本的比对结果数据,生成关于待测对象的肿瘤样本的多种预定基因的基因组变异数据;获取关于待测对象的临床数据;确定关于待测对象的肿瘤突变负荷信息;获取关于待测对象的免疫检查点分子表达数据;至少基于基因组变异数据、临床数据、肿瘤突变负荷信息和免疫检查点分子表达数据,生成预测模型的输入数据;以及基于经由多样本训练的预测模型,提取输入数据的特征,以便基于所提取的特征预测肝癌特征类型,预测模型是基于神经网络模型所构建的。
[0007]根据本专利技术的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。
[0008]根据本公开的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。
[0009]在一些实施例中,生成预测模型的输入数据包括:基于肿瘤样本的肿瘤组织中肿瘤细胞所占的比例,确定关于肿瘤样本的肿瘤纯度数据;以及基于比对结果数据,计算测序
深度;以及基于基因组变异数据、临床数据、肿瘤突变负荷信息、免疫检查点分子表达数据、肿瘤纯度数据和所计算的测序深度,生成预测模型的输入数据。
[0010]在一些实施例中,基于基因组变异数据、临床数据、肿瘤突变负荷信息、免疫检查点分子表达数据、肿瘤纯度数据和所计算的测序深度,生成预测模型的输入数据包括:基于基因组变异数据、临床数据、肿瘤突变负荷信息、免疫检查点分子表达数据、肿瘤纯度数据和所计算的测序深度,生成候选特征;确定对于肝癌特征类型的分类存在贡献的候选特征的贡献度;按照贡献度递减的顺序,针对候选特征进行降序排序;以及将排序顺序小于或者等于预定顺序阈值的候选特征确定为预测模型的输入数据。
[0011]在一些实施例中,关于待测对象的肿瘤样本的多种预定基因的基因组变异数据包括:关于待测对象的肿瘤样本的多个预定基因的单碱基取代数据、短和长插入缺失数据、拷贝数变异数据、以及基因重排数据
[0012]在一些实施例中,其中关于待测对象的临床数据至少包括:关于待测对象的性别信息、年龄信息和肿瘤分期信息。
[0013]在一些实施例中,多种预定基因属于预定基因集合,免疫检查点分子表达数据为程序性死亡配体1表达数据。
[0014]在一些实施例中,预测模型是基于按误差逆传播算法训练的多层前馈网络所构建的。
[0015]在一些实施例中,基于所提取的特征预测肝癌特征类型包括:基于所提取的特征,确定关于待测对象的肝癌特征类型的预测结果,预测结果指示肝癌原发灶特征类型或者肝癌复发/转移灶特征类型。
[0016]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
[0017]图1示出了根据本公开的实施例的用于实施预测肝癌特征类型的方法的系统的示意图。
[0018]图2示出了根据本公开的实施例的用于预测肝癌特征类型的方法的流程图。
[0019]图3示出了根据本公开的实施例的预测模型的拓扑结构示意图。
[0020]图4示出了根据本公开的一些实施例的预测模型的ROC曲线示意图。
[0021]图5示出了根据本公开的另一些实施例的预测模型的ROC曲线示意图。
[0022]图6示出了根据本公开的实施例的用于生成预测模型的输入数据的方法的流程图。
[0023]图7示出了根据本公开的实施例的基于所选择的30个候选特征输入预测模型进行评价的统计结果示意图。
[0024]图8示出了根据本公开的预定顺序阈值为30的一些实施例的预测模型的ROC曲线示意图。
[0025]图9示意性示出了适于用来实现本公开实施例的电子设备的框图。
[0026]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0027]下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0028]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
[0029]如前文所描述,传统的用于预测肝癌特征类型的方法存在的不足之处在于:或者需要辅以专家经验,或者缺乏临床证据支持,因而,难以同时兼顾适用的泛化性和预测的可靠性。
[0030]为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于预测肝癌特征类型的方案。该方案包括:通过获取关于待测对象的肿瘤样本的多种预定基因的基因组变异数据、临床数据、肿瘤突变负荷信息和免疫检查点分子表达数据;以及至少基于基因组变异数据、临床数据、肿瘤突变负荷信息和免疫检查点分子表达数据,生成输入数据以便输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于预测肝癌特征类型的方法,包括:基于关于待测对象的肿瘤样本的比对结果数据,生成关于待测对象的肿瘤样本的多种预定基因的基因组变异数据;获取关于待测对象的临床数据;确定关于待测对象的肿瘤突变负荷信息;获取关于待测对象的免疫检查点分子表达数据;至少基于基因组变异数据、临床数据、肿瘤突变负荷信息和免疫检查点分子表达数据,生成预测模型的输入数据;以及基于经由多样本训练的预测模型,提取所述输入数据的特征,以便基于所提取的特征预测肝癌特征类型,所述预测模型是基于神经网络模型所构建的。2.根据权利要求1所述的方法,其中生成预测模型的输入数据包括:基于肿瘤样本的肿瘤组织中肿瘤细胞所占的比例,确定关于肿瘤样本的肿瘤纯度数据;基于比对结果数据,计算测序深度;以及基于基因组变异数据、临床数据、肿瘤突变负荷信息、免疫检查点分子表达数据、肿瘤纯度数据和所计算的测序深度,生成预测模型的输入数据。3.根据权利要求2所述的方法,其中生成预测模型的输入数据还包括:基于基因组变异数据、临床数据、肿瘤突变负荷信息、免疫检查点分子表达数据、肿瘤纯度数据和所计算的测序深度,生成候选特征;确定对于肝癌特征类型的分类存在贡献的候选特征的贡献度;按照贡献度递减的顺序,针对候选特征进行降序排序;以及将排序顺序小于或者等于预定顺序阈值的候选特征确定为预测模型...

【专利技术属性】
技术研发人员:尤冬张丽文刘阳
申请(专利权)人:上海至本医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1