【技术实现步骤摘要】
【国外来华专利技术】利用起源组织阈值的癌症分类
技术介绍
[0001]脱氧核糖核酸(DNA)甲基化在调节基因表达中起重要作用。异常的DNA甲基化与包括癌症的许多疾病过程有牵连。使用甲基化测序(例如全基因组亚硫酸氢盐测序(WGBS))的DNA甲基化分析越来越被认为是癌症的检测、诊断和/或监测的有价值的诊断工具。例如差异甲基化区域的特定模式和/或等位基因特异性甲基化模式可用作使用循环无细胞(cf)DNA进行非侵入性诊断的分子标签。然而,本领域仍然需要用于分析来自无细胞DNA的甲基化测序数据的改进方法,用于诸如癌症的疾病的检测、诊断和/或监测。
技术实现思路
[0002]早期检测受试者的疾病状态(诸如癌症)是重要的,因为它允许早期治疗并因此有更大的存活机会。无细胞(cf)DNA样本中DNA片段的测序可用于标识可用于疾病分类的特征。例如在癌症评估中,来自血液样本的基于游离DNA的特征(例如是否存在体细胞变异、甲基化状态或其他遗传异常)可以提供对受试者是否可能患有癌症的洞察力,并进一步对受试者可能患有哪种癌症的洞察力。为此,本描述包括用于分析无细胞DNA测序数据以确定受试者患疾病的似然性的系统和方法。
[0003]分析系统处理来自多个样本(例如多个癌症和非癌症样本)的大量测序数据以标识随后用于癌症分类的特征。借助测序数据,分析系统能够训练和部署癌症分类器,以便为测试样本生成癌症预测。
[0004]关于使用哪些训练样本来训练癌症分类器,分析使用已经被标识并标记为具有一种或多种癌症类型的训练样本,以及作为来自被标记为非癌症的健康个体的训练样本。 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种检测癌症的方法,包括:接收包含cfDNA片段的多个生物样本的测序数据,所述生物样本包括癌症样本和非癌症样本;对于所述多个生物样本中的每个非癌症样本:使用多类分类器基于从所述测序数据得到的特征来对所述生物样本进行分类,其中所述多类分类器预测针对多个起源组织类别中的每一个起源组织类别的概率似然性,所述多个起源组织类别还包括一个或多个起源组织亚类类别;以及对于每个亚类类别,确定所预测的概率似然性是否超过亚类切点,其中所述亚类切点指示针对所述亚类类别的特异性阈值;以及确定用于预测癌症的存在或不存在的截断阈值,所述截断阈值基于对应于所述非癌症样本的概率得分的分布而被确定,其中所述概率得分的分布不包括与一个或多个非癌症样本相关联的概率得分,所述一个或多个非癌症样本被识别为具有超过亚类切点的概率似然性。2.根据权利要求1所述的方法,其中所述概率得分的分布由二元分类器生成,所述二元分类器是在从所述癌症样本和非癌症样本得到的训练样本上被训练。3.根据权利要求2所述的方法,其中所述训练样本被划分为多个交叉验证训练集,并且被用于训练所述二元分类器以检测癌症的存在,其中所述二元分类器针对每个训练样本产生指示是否存在癌症的概率得分。4.根据权利要求2所述的方法,其中所述二元分类器与第一截断阈值相关联,并且其中确定用于预测癌症的存在或不存在的所述截断阈值包括:基于排除与所述一个或多个非癌症样本相关联的所述概率得分来修改所述第一截断阈值,所述一个或多个非癌症样本被识别为具有超过亚类切点的概率似然性。5.根据权利要求1所述的方法,其中确定所述截断阈值包括:将期望的特异性水平应用于所述概率得分的分布,所述截断阈值包括阈值概率得分。6.根据权利要求1所述的方法,包括:接收包含cfDNA片段的测试生物样本的测试测序数据;分析所述测试测序数据以确定是否存在癌症的测试概率得分;确定所述测试概率得分是否超过所述截断阈值;以及响应于确定所述测试概率得分超过所述截断阈值,预测癌症的存在。7.根据权利要求6所述的方法,还包括:响应于确定所述测试概率得分不超过所述截断阈值,预测不存在癌症。8.根据权利要求6所述的方法,还包括:响应于确定所述测试概率得分超过所述截断阈值,使用所述多类分类器来针对所述癌症的起源组织评估所述测试测序数据。9.根据权利要求1所述的方法,其中所述多类分类器在从所述癌症样本和非癌症样本得到的训练样本上被训练。10.根据权利要求1所述的方法,还包括:通过迭代优化过程来确定每个亚类切点,所述迭代优化过程优化针对对应的所述起源组织亚类类别的临床特异性和临床敏感性之间的权衡。
11.根据权利要求1所述的方法,其中所述起源组织亚类类别包括指示一种或多种血液状况的血液类别。12.根据权利要求11所述的方法,其中针对每个血液类别的每个亚类切点是基于对应的血液病况的临床侵袭性的度量来确定的。13.根据权利要求12所述的方法,其中所述临床侵袭性的度量包括以下一项或多项:疾病进展的早期阶段、存活率、疾病进展的速度和疾病的严重性。14.根据权利要求11所述的方法,其中所述血液类别包括NHL惰性类、骨髓类和循环淋巴类。15.根据权利要求11的方法,其中所述血液类别包括以下至少一项:循环淋巴类、NHL惰性类、NHL侵袭性类、霍奇金淋巴瘤类、骨髓类、浆细胞类、血红素1类和血红素3类。16.根据权利要求15所述的方法,其中所述循环淋巴类包括一种或多种亚类,所述一种或多种亚类:毛细胞白血病、低级别b细胞、淋巴浆细胞、慢性淋巴细胞白血病(CLL)、SLL、b细胞淋巴母细胞和套细胞。17.根据权利要求15所述的方法,其中所述NHL惰性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:MALT_NMZL和滤泡性淋巴瘤。18.根据权利要求15所述的方法,其中所述NHL侵袭性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:成熟t细胞肿瘤、纵隔LBCL、高级别b细胞和DLBCL。19.根据权利要求15所述的方法,其中所述骨髓类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:真性红细胞增多症(PV)、MDS、CML和AML。20.根据权利要求15所述的方法,其中所述浆细胞类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:浆细胞肿瘤和浆细胞骨髓瘤。21.根据权利要求1所述的方法,其中所述测序数据包括由所述cfDNA片段的甲基化测序产生的甲基化测序数据。22.根据权利要求21所述的方法,其中所述甲基化测序包括WGBS。23.根据权利要求21所述的方法,其中所述甲基化测序包括靶向测序。24.根据权利要求21所述的方法,其中由所述甲基化测序数据得到的所述特征指示甲基化模式、克隆得分、或生长或更新速率。25.根据权利要求1所述的方法,其中所述多个起源组织类别包括一种或多种固体或液体癌变起源组织,所述一种或多种固体或液体癌变起源组织选自由以下各项构成的组:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、尿路上皮癌、肾盂癌、尿路上皮以外的肾癌、前列腺癌、肛门直肠癌、大肠癌、食道癌、胃癌、肝细胞癌、肝细胞以外的肝胆癌、胰腺癌、上段鳞状细胞癌胃肠道、除鳞状细胞外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和除腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。26.根据权利要求1所述的方法,其中所述多个起源组织类别包括非癌症类别。27.一种系统,包括硬件处理器和存储可执行指令的非暂时性计算机可读存储介质,所述可执行指令在由所述硬件处理器执行时使所述处理器执行包括根据权利要求1
‑
26中任一项所述的方法的步骤。28.一种检测和分类癌症的方法,包括:
接收包括cfDNA片段的生物样本的测序数据;使用多类分类器基于从所述测序数据得到的特征来分析所述测序数据,其中所述多类分类器预测多个起源组织类别中的每一个起源组织类别的概率似然性,所述多个起源组织类别包括:一种或多种癌症起源组织类别和一种或多种血液起源组织亚类类别;以及基于由所述多类分类器预测的所述概率似然性来确定癌症分类,其中所述癌症分类包括是否存在癌症、癌症起源组织、或血液起源组织。29.根据权利要求28所述的方法,其中所述一种或多种血液起源组织亚类类别包括指示一种或多种血液状况的一种或多种血液类别。30.根据权利要求29所述的方法,其中所述血液类别包括NHL惰性类、骨髓类和循环淋巴类。31.根据权利要求29所述的方法,其中所述血液类别包括以下至少一项:循环淋巴类、NHL惰性类、NHL侵袭性类、霍奇金淋巴瘤类、骨髓类、浆细胞类、血红素1类和血红素3类。32.根据权利要求31所述的方法,其中所述循环淋巴类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:毛细胞白血病、低级别b细胞、淋巴浆细胞、慢性淋巴细胞白血病(CLL)、SLL、b细胞淋巴母细胞、和套细胞。33.根据权利要求31所述的方法,其中所述NHL惰性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:MALT_NMZL和滤泡性淋巴瘤。34.根据权利要求31所述的方法,其中所述NHL侵袭性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:成熟t细胞肿瘤、纵隔LBCL、高级别b细胞和DLBCL。35.根据权利要求31所述的方法,其中所述骨髓类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:真性红细胞增多症(PV)、MDS、CML和AML。36.根据权利要求31所述的方法,其中所述浆细胞类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:浆细胞...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。