用于预测体细胞变异真假的方法、电子设备和存储介质技术

技术编号:34034121 阅读:58 留言:0更新日期:2022-07-06 11:52
本公开涉及一种用于预测体细胞变异真假的方法、计算设备和存储介质。该方法包括:获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据;获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长;针对肿瘤样本读长和对照样本读长中的每个基因组位置,提取关于A、C、G、T四种碱基和插入缺失变异的特征信息;基于所提取的特征信息,生成预测模型的输入数据;以及基于经由多样本训练的预测模型,提取所述输入数据的特征,以便基于所提取的特征预测体细胞变异的真假。本公开能够自动、快速并准确地判断体细胞变异真假。快速并准确地判断体细胞变异真假。快速并准确地判断体细胞变异真假。

【技术实现步骤摘要】
用于预测体细胞变异真假的方法、电子设备和存储介质


[0001]本公开总体上涉及生物信息处理,并且具体地,涉及用于预测预测体细胞变异真假的方法、电子设备和计算机存储介质。

技术介绍

[0002]对于癌症的发生、演变、治疗来说,体细胞突变是个关键辅助信息。但精确的体细胞变异的检测存在难度。传统的检测体细胞变异的方案,例如包括:针对特定的肿瘤样本的测序数据,利用MuTect,MuSE, VarDict, VarScan2, Strelka2等软件生成关于体细胞变异的检测结果。但是,上述传统的检测体细胞变异的方案(例如,利用一般的软件)的检测结果通常存在一定的假阳性,难以应用于临床应用,需要辅以人工判断以及过滤假阳性检测结果。因此,传统的检测体细胞变异的方案需要消耗大量人力和时间,检测效率低下;另外,由于人工判断结果具有一定的主观性,因此,检测结果不够准确。
[0003]综上,传统的检测体细胞变异真假的方案存在的不足之处在于:难以自动、快速并准确地判定体细胞变异真假。

技术实现思路

[0004]本公开提供一种预测体细胞变异真假的方法、电子设备和计算机存储介质,能够自动、快速并准确地判断体细胞变异真假。
[0005]根据本公开的第一方面,提供了一种用于预测体细胞变异真假的方法。该方法包括:获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据;获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长;针对肿瘤样本读长和对照样本读长中的每个基因组位置,提取关于A、C、G、T四种碱基和缺失变异的特征信息;基于所提取的关于A、C、G、T四种碱基和缺失变异的特征信息,生成预测模型的输入数据;以及基于经由多样本训练的预测模型,提取输入数据的特征,以便基于所提取的特征预测体细胞变异的真假,预测模型是基于神经网络模型所构建的。
[0006]根据本专利技术的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。
[0007]根据本公开的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。
[0008]在一些实施例中,肿瘤样本读长包括:支持体细胞变异位点的肿瘤样本支持读长和不支持体细胞变异位点的肿瘤样本不支持读长,对照样本读长包括:支持体细胞变异位点的对照样本支持读长和不支持体细胞变异位点的对照样本不支持读长。
[0009]在一些实施例中,基于肿瘤样本的比对结果数据、对照样本的比对结果数据,确定
每条读长的起始位置和读长长度;基于每条读长的起始位置、读长长度,确定经过体细胞变异位点所在基因组位置的所有读长;在经过体细胞变异位点所在基因组位置的所有读长中,获取体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长。
[0010]在一些实施例中,获取体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长包括:获取体细胞变异位点所在基因组位置前后预定范围内的、关于肿瘤样本的肿瘤样本支持读长和肿瘤样本不支持读长;以及获取体细胞变异位点所在基因组位置前后预定范围内的、关于对照样本的对照样本支持读长和对照样本不支持读长。
[0011]在一些实施例中,其中针对肿瘤样本读长和对照样本读长中的每个基因组位置,提取关于A、C、G、T四种碱基和缺失变异的特征信息还包括:针对体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长中的每个基因组位置,提取以下各项中的多项:所测到的关于A、C、G、T四种碱基和缺失变异的碱基数量、平均碱基质量、平均比对质量、正链比对上对照样本的读长数量、读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量、比对评分的平均值,完全比对上的读长数量。
[0012]在一些实施例中,对比评估数据的平均值包括:最优比对评分的平均值和第二比对评分的平均值。。
[0013]在一些实施例中,针对肿瘤样本读长和对照样本读长中的每个基因组位置,提取以下各项中的多项包括:针对关于肿瘤样本读长和对照样本读长中的每个基因组位置,获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置和最优对比评分;针对每条读长,计算读长长度;基于起始位置和所计算的读长长度,确定经过当前基因组位置的读长;获取经过当前基因组位置的读长所对应的最优对比评分,以便计算关于当前基因组位置的最优比对评分的平均值。
[0014]在一些实施例中,针对肿瘤样本读长和对照样本读长中的每个基因组位置,提取以下各项中的多项包括:针对关于肿瘤样本读长和对照样本读长中的每个基因组位置,获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置;确认读长是否存在失配序列;响应于确认读长存在失配序列,获取与读长相关联的失配序列的位置信息;计算读长长度;基于起始位置和所计算的读长长度,确定经过当前基因组位置的读长;基于与经过当前基因组位置的读长相关联的失配序列的位置信息,计算读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量。
[0015]在一些实施例中,基于测序读长长度,确定预定范围。
[0016]在一些实施例中,预测模型是基于包括10个残差块的二分类卷积残差网络所构建的,预定范围为151bp或者76bp。
[0017]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
[0018]图1示出了根据本公开的实施例的用于实施预测体细胞变异真假的方法的系统的示意图。
[0019]图2示出了根据本公开的实施例的用于预测体细胞变异真假的方法的流程图。
[0020]图3示出了根据本公开的实施例的用于预测体细胞变异真假的方法的效果示意图。
[0021]图4示出了根据本公开的实施例的用于获取肿瘤样本读长和对照样本读长的方法的流程图。
[0022]图5示出了根据本公开的实施例的用于计算最优比对评分的平均值的方法的流程图。
[0023]图6示出了根据本公开的实施例的用于提取读长包含失配序列的读长数量的方法的流程图。
[0024]图7示意性示出了适于用来实现本公开实施例的电子设备的框图。
[0025]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0026]下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于预测体细胞变异真假的方法,包括:获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据;获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长;针对肿瘤样本读长和对照样本读长中的每个基因组位置,提取关于A、C、G、T四种碱基和缺失变异的特征信息;基于所提取的关于A、C、G、T四种碱基和缺失变异的特征信息,生成预测模型的输入数据;以及基于经由多样本训练的预测模型,提取所述输入数据的特征,以便基于所提取的特征预测体细胞变异的真假,所述预测模型是基于神经网络模型所构建的。2.根据权利要求1所述的方法,其中所述肿瘤样本读长包括:支持所述体细胞变异位点的肿瘤样本支持读长和不支持所述体细胞变异位点的肿瘤样本不支持读长,所述对照样本读长包括:支持所述体细胞变异位点的对照样本支持读长和不支持所述体细胞变异位点的对照样本不支持读长。3.根据权利要求1所述的方法,其中获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长包括:基于肿瘤样本的比对结果数据、对照样本的比对结果数据,确定每条读长的起始位置和读长长度;基于每条读长的起始位置、读长长度,确定经过所述体细胞变异位点所在基因组位置的所有读长;在经过所述变异位点所在基因组位置的所有读长中,获取所述体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长。4.根据权利要求3所述的方法,其中获取所述体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长包括:获取所述体细胞变异位点所在基因组位置前后预定范围内的、关于肿瘤样本的肿瘤样本支持读长和肿瘤样本不支持读长;以及获取所述体细胞变异位点所在基因组位置前后预定范围内的、关于对照样本的对照样本支持读长和对照样本不支持读长。5.根据权利要求1所述的方法,其中针对肿瘤样本读长和对照样本读长中的每个基因组位置,提取关于A、C、G、T四种碱基和缺失变异的特征信息还包括:针对所述体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长中的每个基因组位置,提取以下各项中的多项:所测到的关于A、C、G、T四种碱基和缺失变异的碱基数量、平均碱基质量、平均比对质量、正...

【专利技术属性】
技术研发人员:董筱微柳文进车月
申请(专利权)人:上海至本医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1