【技术实现步骤摘要】
【国外来华专利技术】异常片段检测与分类
技术介绍
:
[0001]脱氧核糖核酸(DNA)的甲基化在调节基因表达中起重要作用。畸变的(aberrant)DNA甲基化与许多疾病过程(包含癌症)有关。使用甲基化测序的DNA甲基化图谱(DNA methylation profiling)(例如,全基因组亚硫酸氢盐测序(WGBS))越来越被认为是检测、诊断和/或监测癌症的有价值的诊断工具。例如,多个差异甲基化区域的多个特定模式和/或多个等位基因特异性甲基化模式可以用作使用循环无细胞(cf)DNA的非侵入性诊断的多种分子标记。然而,本领域仍然需要改进的方法来分析来自无细胞DNA的甲基化测序数据,以便检测、诊断和/或监测疾病(例如癌症)。
技术实现思路
[0002]对象中癌症的早期发现是很重要的,因为它允许早期治疗,因此生存机会更大。对无细胞(cf)DNA样本中的多个DNA片段进行测序,以确定所述多个片段中各种胞嘧啶和鸟嘌呤的二核苷酸(称为CpG位点)的甲基化状态,从而深入了解所述对象是否可能患有癌症,并进一步了解所述对象可能患有何种类型的癌症。为此,本说明书包 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于从一测试对象的一测试样本中确定一癌症类型的方法,所述测试样本包含一组的多个片段的脱氧核糖核酸,其特征在于,所述方法包含:基于所述多个片段的一个或多个是否与CpG位点相重叠,通过对于来自一参考基因组的多个CpG位点中的每一个生成一分数来生成一测试特征向量;将所述测试特征向量输入到一经训练的模型中,以生成对于所述测试样本的一癌症预测,所述癌症预测包含多个癌症预测值,每个癌症预测值描述所述测试样本属于多个癌症类型中的一特定癌症类型的可能性,所述经训练的模型包含:多个分类参数,及一函数,表示作为输入接收的所述测试特征向量与基于所述测试特征向量和所述多个分类参数作为输出生成的所述癌症预测之间的一关系;以及基于所述癌症预测来确定所述测试对象是否具有所述多个癌症类型中的一第一癌症类型。2.如权利要求1所述的方法,其特征在于,所述经训练的模型的所述多个分类参数在以下信息进行训练:多个训练样本,其中所述多个训练样本中的每一个是一癌症类型,及所述多个训练样本中的每一个包含一组的多个片段;以及用于所述多个训练样本的多个训练特征向量,每个训练特征向量包含对于所述多个CpG位点中的每一个,基于所述训练样本的所述多个片段中的一个或多个是否与所述CpG位点相重叠的一分数。3.如权利要求2所述的方法,其特征在于,基于所述训练样本或所述测试样本的一覆盖率对每个特征向量进行归一化,所述覆盖率表示由分别包含所述训练样本或所述测试样本的所述多个片段覆盖的所有CpG位点的一深度度量。4.如权利要求3所述的方法,其特征在于,所述深度度量是以下中的一种:一中值深度和一平均深度。5.如权利要求1所述的方法,其特征在于,所述组的所述多个片段的每个片段是一异常片段,所述方法还包含:以p值过滤对多个片段的一初始集合进行过滤,以生成一异常片段组,所述过滤包含从相对于其他具有低于一阈值p值的所述初始集合移除多个片段以生成所述异常片段组。6.如权利要求5所述的方法,其特征在于,所述组的所述多个片段中的每个片段也是低甲基化或高甲基化,使得所述片段分别包含至少一阈值数量的多个CpG位点,所述至少一阈值数量的所述多个CpG位点具有未甲基化的所述多个CpG大于一阈值百分比,或者甲基化的所述多个CpG位点大于所述阈值百分比。7.如权利要求1所述的方法,其特征在于,一对应的CpG位点的分数是二进制值,所述二进制值表示所述多个片段的一个或多个是否与所述CpG位点相重叠。8.如权利要求1所述的方法,其特征在于,一对应的CpG位点的分数是基于所述多个片段与所述CpG位点相重叠的一计数。9.如权利要求1所述的方法,其特征在于,所述第一癌症类型选自由以下组成的群组:一乳腺癌类型、一结直肠癌类型、一食管癌类型、一头颈癌类型、一肝胆癌类型、一肺癌类型、一淋巴瘤癌类型、一卵巢癌类型、一胰腺癌类型、一肛门直肠癌类型,一宫颈癌类型、一
胃癌类型、一白血病癌类型、一多发性骨髓瘤癌类型、一前列腺癌类型、一肾癌类型、一甲状腺癌类型、一子宫癌类型、一脑癌类型、一肉瘤癌类型和一神经内分泌癌类型。10.如权利要求1所述的方法,其特征在于,所述函数是一逻辑回归。11.如权利要求1所述的方法,其特征在于,所述函数是一多项式回归。12.如权利要求1所述的方法,其特征在于,所述函数是一非线性回归。13.如权利要求1所述的方法,其特征在于,所述经训练的模型是一神经网络,所述神经网络具有多个层,所述多个层包含:一输入层,用于接收所述测试特征向量;及一输出层,用于基于所述测试特征向量返回所述癌症预测,其中所述函数和所述多个分类参数定义所述多个层的多个节点之间的多个边缘。14.如权利要求13所述的方法,其特征在于,所述方法还包含:通过将多个训练样本中的一训练样本应用于所述神经网络并计算一损失函数而获得的一个或多个误差项反复进行反向传播来更新所述神经网络,其中所述多个层基于计算出的损失函数进行更新。15.如权利要求1所述的方法,其特征在于,所述经训练的模型中使用的所述多个CpG位点是从多个CpG位点的一初始集合中选择,从所述多个CpG位点的所述初始集合中选择是根据所述多个CpG位点的所述初始集合的每个CpG位点的一计算的信息增益。16.如权利要求15所述的方法,其特征在于,所述经训练的模型中使用的所述多个CpG位点是通过以下方式选择:基于计算出的信息增益对所述多个CpG位点的所述初始集合进行排名,以及其中用于所述经训练的模型中选择所述多个CpG位点是基于所述多个CpG位点的所述初始集合的一排名。17.如权利要求1所述的方法,其特征在于,所述经训练的模型中使用的所述多个CpG位点被选择为距离所述经训练的模型中使用的其他CpG位点至少一阈值数量的碱基对。18.如权利要求1所述的方法,其特征在于,基于所述癌症预测来确定所述测试对象是否具有所述多个癌症类型中的所述第一癌症类型包含:从所述癌症预测中的所述多个癌症预测值识别一最大癌症预测值,其中所述第一癌症类型与所述最大癌症预测值相关联。19.一种用于从一测试对象的一测试样本中确定一癌症类型的方法,所述测试样本包含一组的多个片段的脱氧核糖核酸,其特征在于,所述方法包含:基于所述多个片段的一个或多个是否与CpG位点相重叠,通过对于来自一参考基因组的多个CpG位点中的每一个生成一分数来生成一测试特征向量;将所述测试特征向量输入到一第一经训练的模型中以生成所述测试样本的一第一癌症预测,所述第一癌症预测描述所述测试样本患有癌症的可能性或所述测试样本不患有癌症的可能性,所述第一经训练的模型包含:一第一分类参数组,及一第一函数,表示作为输入接收的所述测试特征向量与基于所述测试特征向量和所述第一分类参数组作为输出生成的所述第一癌症预测之间的一关系;根据所述第一癌症预测确定所述测试样本是否可能患有癌症;响应于确定所述测试样本可能患有癌症,将所述测试特征向量输入到一第二经训练的模型中以生成一第二癌症预测,所述第二癌症预测描述所述测试样本具有多个癌症类型中
的一第一癌症类型的可能性,所述第二经训练的模型包含:一第二分类参数组,及一第二函数,表示作为输入接收的所述测试特征向量与基于所述测试特征向量和所述第二分类参数组生成作为输出的所述第二癌症预测之间的一关系;以及基于所述第二癌症预测来确定所述测试对象具有所述多个癌症类型中的所述第一癌症类型。20.一种存储多个可执行指令的非暂时性计算机可读存储介质,其特征在于,当由一处理器执行时,所述非暂时性计算机可读存储介质使所述处理器执行一分类器以检测癌症,所述分类器由一流程生成,所述流程包含:获取源自患有癌症的多个对象的多个癌症样本中的每个样本的片段组的多个序列读数及源自不患有癌症的多个个体的多个非癌症样本中的每个样本的片段组的多个序列读数,其中每个癌症样本是来自多个癌症类型的一癌症类型;对于每个片段,确定所述片段是否具有一异常甲基化模式,从而获得对于每个样本的一异常甲基化片段组;对于每个异常甲基化片段,确定所述异常甲基化片段是低甲基化还是高甲基化,其中低甲基化片段和高甲基化片段分别包含至少一阈值数量的多个CpG位点和所述多个CpG位点的至少一阈值百分比是未甲基化或甲基化;对于每个样本,通过基于来自所述样本的一个或多个低甲基化片段或高甲基化片段是否与CpG位点相重叠而为一参考基因组中的多个CpG位点中的每一个生成一分数来生成一样本特征向量;基于为所述多个癌症样本生成的多个特征向量和为所述多个非癌症样本生成的多个特征向量训练一预测模型,所述预测模型被配置为接收源自一测试对象的一测试样本生成的一测试特征向量,及基于所述测试特征向量输出一癌症预测,所述癌症预测包含一癌症预测值,所述癌症预测值对于所述多个癌症类型中的每一个,描述所述测试样本是特定癌症类型的可能性;以及将表示所述预测模型的一参数组存储在所述非暂时性计算机可读存储介质上。21.如权利要求20所述的非暂时性计算机可读存储介质,其特征在于,所述预测模型包含一神经网络,所述神经网络具有多个层,所述多个层包含:一输入层,用于从所述多个癌症样本、从所述多个非癌症样本及从所述测试样本接收所述多个特征向量;以及一输出层,用于基于所述多个特征向量的返回多个癌症预测。22.如权利要求21所述的非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质还包含通过将多个训练实例中的一训练实例应用于所述预测模型并计算一损失函数而获得的一个或多个误差项反复进行反向传播来更新所述神经网络,其中所述多个层基于计算出的损失函数进行更新。23.如权利要求20所述的非暂时性计算机可读存储介质,其特征在于,所述预测模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。24.一种存储多个可执行指令的非暂时性计算机可读存储介质,其特征在于,当由一处理器执行时,所述非暂时性计算机可读存储介质使所述处理器执行一分类器以诊断癌症,
所述分类器由一流程生成,所述流程包含:获取源自患有癌症的多个对象的多个癌症样本中的每个样本的片段组的多个序列读数及源自不患有癌症的多个个体的多个非癌症样本中的每个样本的片段组的多个序列读数,其中每个癌症样本是来自多个癌症类型的一癌症类型;对于每个片段,确定所述片段是否具有一异常甲基化模式,从而获得对于每个样本的一异常甲基化片段组;对于每个异常甲基化片段,确定所述异常甲基化片段是低甲基化还是高甲基化,其中低甲基化片段和高甲基化片段分别包含至少一阈值数量的多个CpG位点和所述多个CpG位点的至少一阈值百分比是未甲基化或甲基化;对于每个样本,通过基于来自所述样本的一个或多个低甲基化片段或高甲基化片段是否与CpG位点相重叠而为一参考基因组中的多个CpG位点中的每一个生成一分数来生成一样本特征向量;基于为所述多个癌症样本生成的多个特征向量和为所述多个非癌症样本生成的多个特征向量训练一第一预测模型,所述第一预测模型被配置为接收源自一测试对象的一测试样本生成的一测试特征向量,及基于所述测试特征向量输出一第一癌症预测,所述第一癌症预测描述所述测试样本患有癌症的可能性;将表示所述第一预测模型的一第一参数组存储在所述非暂时性计算机可读存储介质上;基于为所述多个癌症样本生成的多个特征向量训练一第二预测模型,所述第二预测模型被配置为接收具有高于所述第一癌症预测一阈值可能性的一测试特征向量,及基于所述测试特征向量输出一第二癌症预测,所述第二癌症预测包含一癌症预测值,所述癌症预测值对于所述多个癌症类型中的每一个,描述所述测试样本是特定癌症类型的可能性;以及将表示所述第二预测模型的一第二参数组存储在所述非暂时性计算机可读存储介质上。25.如权利要求24所述的非暂时性计算机可读存储介质,其特征在于,所述预测模型包含一神经网络,所述神经网络具有多个层,所述多个层包含:一输入层,用于从所述多个癌症样本、从所述多个非癌症样本及从所述测试样本接收所述多个特征向量;以及一输出层,用于基于所述多个特征向量的返回多个癌症预测。26.如权利要求25所述的非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质还包含通过将多个训练实例中的一训练实例应用于所述预测模型并计算一损失函数而获得的一个或多个误差项反复进行反向传播来更新所述神经网络,其中所述多个层基于计算出的损失函数进行更新。27.如权利要求24所述的非暂时性计算机可读存储介质,其特征在于,所述预测模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。28.一种具有编码的多个指令的非暂时性计算机可读存储介质,其特征在于,当由一处理器执行时,所述非暂时性计算机可读存储介质使所述处理器完成包含以下的多个步骤:基于所述多个片段的一个或多个是否与CpG位点相重叠,通过对于来自一参考基因组的多个CpG位点中的每一个生成一分数来生成一测试特征向量;
将所述测试特征向量输入到一经训练的模型中,以生成对于所述测试样本的一癌症预测,所述癌症预测包含多个癌症预测值,每个癌症预测值描述所述测试样本属于多个癌症类型中的一特定癌症类型的可能性,所述经训练的模型包含:多个分类参数,及一函数,表示作为输入接收的所述测试特征向量与基于所述测试特征向量和所述多个分类参数作为输出生成的所述癌症预测之间的一关系;以及基于所述癌症预测来确定所述测试对象是否具有所述多个癌症类型中的一第一癌症类型。29.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,所述经训练的模型的所述多个分类参数在以下信息进行训练:多个训练样本,其中所述多个训练样本中的每一个是一癌症类型,及所述多个训练样本中的每一个包含一组的多个片段;以及用于所述多个训练样本的多个训练特征向量,每个训练特征向量包含对于所述多个CpG位点中的每一个,基于所述训练样本的所述多个片段中的一个或多个是否与所述CpG位点相重叠的一分数。30.如权利要求29所述的非暂时性计算机可读存储介质,其特征在于,基于所述训练样本或所述测试样本的一覆盖率对每个特征向量进行归一化,所述覆盖率表示由分别包含所述训练样本或所述测试样本的所述多个片段覆盖的所有CpG位点的一深度度量。31.如权利要求30所述的非暂时性计算机可读存储介质,其特征在于,所述深度度量是以下中的一种:一中值深度和一平均深度。32.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,所述组的所述多个片段的每个片段是一异常片段,所述多个步骤还包含:以p值过滤对多个片段的一初始集合进行过滤,以生成一异常片段组,所述过滤包含从相对于其他具有低于一阈值p值的所述初始集合移除多个片段以生成所述异常片段组。33.如权利要求32所述的非暂时性计算机可读存储介质,其特征在于,所述组的所述多个片段中的每个片段也是低甲基化或高甲基化,使得所述片段分别包含至少一阈值数量的多个CpG位点,所述至少一阈值数量的所述多个CpG位点具有未甲基化的所述多个CpG大于一阈值百分比,或者甲基化的所述多个CpG位点大于所述阈值百分比。34.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,一对应的CpG位点的分数是二进制值,所述二进制值表示所述多个片段的一个或多个是否与所述CpG位点相重叠。35.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,一对应的CpG位点的分数是基于所述多个片段与所述CpG位点相重叠的一计数。36.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,所述第一癌症类型选自由以下组成的群组:一乳腺癌类型、一结直肠癌类型、一食管癌类型、一头颈癌类型、一肝胆癌类型、一肺癌类型、一淋巴瘤癌类型、一卵巢癌类型、一胰腺癌类型、一肛门直肠癌类型,一宫颈癌类型、一胃癌类型、一白血病癌类型、一多发性骨髓瘤癌类型、一前列腺癌类型、一肾癌类型、一甲状腺癌类型、一子宫癌类型、一脑癌类型、一肉瘤癌类型和一神经内分泌癌类型。
37.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,所述函数是一逻辑回归。38.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,所述函数是一多项式回归。39.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,所述函数是一非线性回归。40.如权利要求28所述的非暂时性计算机可读存储介质,其特征在于,所述经训练的模型是一神经网络,所述神经网络具有多个层,所述多个层包含:一输入层,用于接收所述测试特征向量;及一输出层,用于基于所述测试特征向量返回所述癌症预测,其中所述函数和...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。