利用起源组织阈值的癌症分类制造技术

技术编号:34424516 阅读:13 留言:0更新日期:2022-08-06 15:53
公开了用于检测癌症和/或确定癌症起源组织的方法和系统。在一些实施例中,公开了一种多类癌症分类器,其用包含cfDNA片段的多个生物样本进行训练。分析系统得到每个样本的特征向量,并且多类分类器预测多个起源组织(TOO)类别中的每个起源组织的概率似然性。在一些实施例中,多个TOO类别包括血液亚类,包括血液恶性肿瘤和前体病症两者。在一个实施例中,具有高组织信号的非癌症样本从训练样本集中被剪除。在另一实施例中,分析系统根据组织信号对样本进行分层,并应用为每个层确定的二元截断阈值。阈值。阈值。

【技术实现步骤摘要】
【国外来华专利技术】利用起源组织阈值的癌症分类

技术介绍

[0001]脱氧核糖核酸(DNA)甲基化在调节基因表达中起重要作用。异常的DNA甲基化与包括癌症的许多疾病过程有牵连。使用甲基化测序(例如全基因组亚硫酸氢盐测序(WGBS))的DNA甲基化分析越来越被认为是癌症的检测、诊断和/或监测的有价值的诊断工具。例如差异甲基化区域的特定模式和/或等位基因特异性甲基化模式可用作使用循环无细胞(cf)DNA进行非侵入性诊断的分子标签。然而,本领域仍然需要用于分析来自无细胞DNA的甲基化测序数据的改进方法,用于诸如癌症的疾病的检测、诊断和/或监测。

技术实现思路

[0002]早期检测受试者的疾病状态(诸如癌症)是重要的,因为它允许早期治疗并因此有更大的存活机会。无细胞(cf)DNA样本中DNA片段的测序可用于标识可用于疾病分类的特征。例如在癌症评估中,来自血液样本的基于游离DNA的特征(例如是否存在体细胞变异、甲基化状态或其他遗传异常)可以提供对受试者是否可能患有癌症的洞察力,并进一步对受试者可能患有哪种癌症的洞察力。为此,本描述包括用于分析无细胞DNA测序数据以确定受试者患疾病的似然性的系统和方法。
[0003]分析系统处理来自多个样本(例如多个癌症和非癌症样本)的大量测序数据以标识随后用于癌症分类的特征。借助测序数据,分析系统能够训练和部署癌症分类器,以便为测试样本生成癌症预测。
[0004]关于使用哪些训练样本来训练癌症分类器,分析使用已经被标识并标记为具有一种或多种癌症类型的训练样本,以及作为来自被标记为非癌症的健康个体的训练样本。每个训练样本都包含一组片段。对于每个训练样本,分析系统例如通过为每个标识的特征分配得分来生成特征向量。分析系统可以将训练样本分组成一组一个或多个训练样本,用于癌症分类器的迭代训练。分析系统将每组特征向量输入到癌症分类器中并调整癌症分类器中的分类参数,使得癌症分类器的函数基于特征向量和分类参数准确地预测集合中训练样本的标签。在对每组训练样本进行上述步骤迭代之后,癌症分类器就得到了充分的训练。
[0005]在部署期间,分析系统例如通过为每个测试样本的特征向量中的多个特征中的每一个分配得分,以与训练样本类似的方式生成测试样本的特征向量。然后分析系统将测试样本的特征向量输入到癌症分类器中,该分类器返回癌症预测。在一个实施例中,癌症分类器可以被配置为二元分类器以返回对患有或不患有癌症的似然性的癌症预测。在另一个实施例中,癌症分类器可以被配置为多类分类器以返回具有针对被分类的癌症类型的预测值的癌症预测。
[0006]本公开提供了用于检测癌症和/或确定癌症起源组织的方法和系统。在一些实施例中,本专利技术包括用于检测癌症的方法或系统,包括:接收包含cfDNA片段的多个生物样本的测序数据,所述生物样本包括癌症和非癌症样本;对于多个生物样本中的每个非癌症样本:基于源自测序数据的特征使用多类分类器对生物样本进行分类,其中多类分类器预测多个起源组织类别中的每一个的概率似然性,多个起源组织类别进一步包括一种或多种起
源组织亚类类别;以及针对每个亚类类别来确定预测的概率似然性是否超过亚类切点,其中亚类切点指示亚类类别的特异性阈值;以及确定用于预测癌症的存在或不存在的截断阈值,该截断阈值基于对应于非癌症样本的概率得分分布确定,其中概率得分的分布不包括与一个或多个非癌症样本相关联的概率得分,其被标识为具有超过亚类切点的概率似然性。
[0007]在一些实施例中,概率得分的分布由二元分类器生成,该二元分类器对源自癌症和非癌症样本的训练样本进行训练。
[0008]在一些实施例中,将训练样本划分为多个交叉验证训练集并用于训练二元分类器以检测癌症的存在,其中二元分类器为每个训练样本产生指示存在或没有癌症的概率得分。
[0009]在一些实施例中,二元分类器与第一截断阈值相关,并且其中确定用于预测癌症存在或不存在的截断阈值包括:基于与一个或多个非癌症样本相关联的概率得分来修改第一截断阈值,该一个或多个非癌症样本排除与被标识为具有超过亚类切点的概率似然性。
[0010]在一些实施例中,截断阈值包括将期望的特异性水平应用于概率得分的分布,截断阈值包括阈值概率得分。
[0011]在一些实施例中,该方法或系统包括接收包含cfDNA片段的测试生物样本的测试测序数据;分析测试测序数据以确定是否存在癌症的测试概率得分;确定测试概率得分是否超过截断阈值;并且响应于确定测试概率得分超过截断阈值,预测癌症的存在。
[0012]在一些实施例中,该方法或系统进一步包括响应于确定测试概率得分不超过截断阈值,预测不存在癌症。
[0013]在一些实施例中,该方法或系统进一步包括响应于确定测试概率得分超过截断阈值,使用多类分类器来评估癌症起源组织的测试测序数据。
[0014]在一些实施例中,多类分类器在源自癌症和非癌症样本的训练样本上进行训练。
[0015]在一些实施例中,该方法或系统还包括通过迭代优化过程来确定每个亚类切点,该迭代优化过程优化对应起源组织亚类类别的临床特异性和临床敏感性之间的折衷。
[0016]在一些实施例中,起源组织亚类类别包括指示一种或多种血液病状的血液类别。在一些实施例中,每个血液类别的每个亚类切点是基于对应血液病况的临床侵袭性的度量来确定的。
[0017]在一些实施例中,临床侵袭性的量度包括以下一项或多项:疾病进展的早期阶段、存活率、疾病进展的速度和疾病的严重程度。
[0018]在一些实施例中,血液类别包括NHL惰性类、骨髓类和循环淋巴类。在一些实施例中,血液类包括循环淋巴类、NHL惰性类、NHL侵袭性类、霍奇金淋巴瘤类、骨髓类、浆细胞类、血红素1类和血红素3类中的至少一种。在一些实施例中,循环淋巴类包括一种或多种亚类,其选自由以下各项构成的组:毛细胞白血病、低级别b细胞、淋巴浆细胞、慢性淋巴细胞白血病(CLL)、SLL、b细胞淋巴母细胞和套细胞。在一些实施例中,NHL惰性类包括一种或多种亚类,其选自由以下各项构成的组:MALT_NMZL和滤泡性淋巴瘤组成的组的亚类。在一些实施例中,NHL_aggressive类别包含一种或多种亚类,其选自由以下各项构成的组:成熟t细胞肿瘤、纵隔LBCL、高级别b细胞和DLBCL。在一些实施例中,骨髓类包括一种或多种亚类,其选自由以下各项构成的组:真性红细胞增多症(PV)、MDS、CML和AML。在一些实施例中,浆细胞
类包括一种或多种亚类,其选自由以下各项构成的组:浆细胞肿瘤和浆细胞骨髓瘤。
[0019]在一些实施例中,测序数据包括由cfDNA片段的甲基化测序产生的甲基化测序数据。在一些实施例中,甲基化测序包括WGBS。在一些实施例中,甲基化测序包括靶向测序。在一些实施例中,源自甲基化测序数据的特征指示甲基化模式、克隆得分或生长或更新速率。
[0020]在一些实施例中,多种起源组织类别包括一种或多种固体或液体癌起源组织,其选自由以下各项构成的组:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、尿路上皮癌肾盂、尿路上皮以外的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种检测癌症的方法,包括:接收包含cfDNA片段的多个生物样本的测序数据,所述生物样本包括癌症样本和非癌症样本;对于所述多个生物样本中的每个非癌症样本:使用多类分类器基于从所述测序数据得到的特征来对所述生物样本进行分类,其中所述多类分类器预测针对多个起源组织类别中的每一个起源组织类别的概率似然性,所述多个起源组织类别还包括一个或多个起源组织亚类类别;以及对于每个亚类类别,确定所预测的概率似然性是否超过亚类切点,其中所述亚类切点指示针对所述亚类类别的特异性阈值;以及确定用于预测癌症的存在或不存在的截断阈值,所述截断阈值基于对应于所述非癌症样本的概率得分的分布而被确定,其中所述概率得分的分布不包括与一个或多个非癌症样本相关联的概率得分,所述一个或多个非癌症样本被识别为具有超过亚类切点的概率似然性。2.根据权利要求1所述的方法,其中所述概率得分的分布由二元分类器生成,所述二元分类器是在从所述癌症样本和非癌症样本得到的训练样本上被训练。3.根据权利要求2所述的方法,其中所述训练样本被划分为多个交叉验证训练集,并且被用于训练所述二元分类器以检测癌症的存在,其中所述二元分类器针对每个训练样本产生指示是否存在癌症的概率得分。4.根据权利要求2所述的方法,其中所述二元分类器与第一截断阈值相关联,并且其中确定用于预测癌症的存在或不存在的所述截断阈值包括:基于排除与所述一个或多个非癌症样本相关联的所述概率得分来修改所述第一截断阈值,所述一个或多个非癌症样本被识别为具有超过亚类切点的概率似然性。5.根据权利要求1所述的方法,其中确定所述截断阈值包括:将期望的特异性水平应用于所述概率得分的分布,所述截断阈值包括阈值概率得分。6.根据权利要求1所述的方法,包括:接收包含cfDNA片段的测试生物样本的测试测序数据;分析所述测试测序数据以确定是否存在癌症的测试概率得分;确定所述测试概率得分是否超过所述截断阈值;以及响应于确定所述测试概率得分超过所述截断阈值,预测癌症的存在。7.根据权利要求6所述的方法,还包括:响应于确定所述测试概率得分不超过所述截断阈值,预测不存在癌症。8.根据权利要求6所述的方法,还包括:响应于确定所述测试概率得分超过所述截断阈值,使用所述多类分类器来针对所述癌症的起源组织评估所述测试测序数据。9.根据权利要求1所述的方法,其中所述多类分类器在从所述癌症样本和非癌症样本得到的训练样本上被训练。10.根据权利要求1所述的方法,还包括:通过迭代优化过程来确定每个亚类切点,所述迭代优化过程优化针对对应的所述起源组织亚类类别的临床特异性和临床敏感性之间的权衡。
11.根据权利要求1所述的方法,其中所述起源组织亚类类别包括指示一种或多种血液状况的血液类别。12.根据权利要求11所述的方法,其中针对每个血液类别的每个亚类切点是基于对应的血液病况的临床侵袭性的度量来确定的。13.根据权利要求12所述的方法,其中所述临床侵袭性的度量包括以下一项或多项:疾病进展的早期阶段、存活率、疾病进展的速度和疾病的严重性。14.根据权利要求11所述的方法,其中所述血液类别包括NHL惰性类、骨髓类和循环淋巴类。15.根据权利要求11的方法,其中所述血液类别包括以下至少一项:循环淋巴类、NHL惰性类、NHL侵袭性类、霍奇金淋巴瘤类、骨髓类、浆细胞类、血红素1类和血红素3类。16.根据权利要求15所述的方法,其中所述循环淋巴类包括一种或多种亚类,所述一种或多种亚类:毛细胞白血病、低级别b细胞、淋巴浆细胞、慢性淋巴细胞白血病(CLL)、SLL、b细胞淋巴母细胞和套细胞。17.根据权利要求15所述的方法,其中所述NHL惰性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:MALT_NMZL和滤泡性淋巴瘤。18.根据权利要求15所述的方法,其中所述NHL侵袭性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:成熟t细胞肿瘤、纵隔LBCL、高级别b细胞和DLBCL。19.根据权利要求15所述的方法,其中所述骨髓类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:真性红细胞增多症(PV)、MDS、CML和AML。20.根据权利要求15所述的方法,其中所述浆细胞类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:浆细胞肿瘤和浆细胞骨髓瘤。21.根据权利要求1所述的方法,其中所述测序数据包括由所述cfDNA片段的甲基化测序产生的甲基化测序数据。22.根据权利要求21所述的方法,其中所述甲基化测序包括WGBS。23.根据权利要求21所述的方法,其中所述甲基化测序包括靶向测序。24.根据权利要求21所述的方法,其中由所述甲基化测序数据得到的所述特征指示甲基化模式、克隆得分、或生长或更新速率。25.根据权利要求1所述的方法,其中所述多个起源组织类别包括一种或多种固体或液体癌变起源组织,所述一种或多种固体或液体癌变起源组织选自由以下各项构成的组:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、尿路上皮癌、肾盂癌、尿路上皮以外的肾癌、前列腺癌、肛门直肠癌、大肠癌、食道癌、胃癌、肝细胞癌、肝细胞以外的肝胆癌、胰腺癌、上段鳞状细胞癌胃肠道、除鳞状细胞外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和除腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。26.根据权利要求1所述的方法,其中所述多个起源组织类别包括非癌症类别。27.一种系统,包括硬件处理器和存储可执行指令的非暂时性计算机可读存储介质,所述可执行指令在由所述硬件处理器执行时使所述处理器执行包括根据权利要求1

26中任一项所述的方法的步骤。28.一种检测和分类癌症的方法,包括:
接收包括cfDNA片段的生物样本的测序数据;使用多类分类器基于从所述测序数据得到的特征来分析所述测序数据,其中所述多类分类器预测多个起源组织类别中的每一个起源组织类别的概率似然性,所述多个起源组织类别包括:一种或多种癌症起源组织类别和一种或多种血液起源组织亚类类别;以及基于由所述多类分类器预测的所述概率似然性来确定癌症分类,其中所述癌症分类包括是否存在癌症、癌症起源组织、或血液起源组织。29.根据权利要求28所述的方法,其中所述一种或多种血液起源组织亚类类别包括指示一种或多种血液状况的一种或多种血液类别。30.根据权利要求29所述的方法,其中所述血液类别包括NHL惰性类、骨髓类和循环淋巴类。31.根据权利要求29所述的方法,其中所述血液类别包括以下至少一项:循环淋巴类、NHL惰性类、NHL侵袭性类、霍奇金淋巴瘤类、骨髓类、浆细胞类、血红素1类和血红素3类。32.根据权利要求31所述的方法,其中所述循环淋巴类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:毛细胞白血病、低级别b细胞、淋巴浆细胞、慢性淋巴细胞白血病(CLL)、SLL、b细胞淋巴母细胞、和套细胞。33.根据权利要求31所述的方法,其中所述NHL惰性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:MALT_NMZL和滤泡性淋巴瘤。34.根据权利要求31所述的方法,其中所述NHL侵袭性类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:成熟t细胞肿瘤、纵隔LBCL、高级别b细胞和DLBCL。35.根据权利要求31所述的方法,其中所述骨髓类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:真性红细胞增多症(PV)、MDS、CML和AML。36.根据权利要求31所述的方法,其中所述浆细胞类包括一种或多种亚类,所述一种或多种亚类选自由以下各项构成的组:浆细胞...

【专利技术属性】
技术研发人员:刘勤文O
申请(专利权)人:格瑞尔有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1