【技术实现步骤摘要】
【国外来华专利技术】通过非人类宏基因组途径分析进行癌症诊断和分类
[0001]交叉引用
[0002]本申请要求2020年11月16日提交的美国临时专利申请第63/114,447号的权益,其全部内容通过引用并入本文。
技术介绍
[0003]最近对不同癌症类型的研究表明,肿瘤具有内源性微生物组,该内源性微生物组可用于改善预后、诊断、治疗选择,并加强我们对肿瘤内生物学的理解。迄今为止,已有报道为乳腺癌、前列腺癌、结肠癌、脑癌、骨癌、皮肤癌和胰腺癌中的肿瘤特有微生物组提供了证据。微生物如何在肿瘤中生存尚存在争议,但已经证明,独立于病因学,癌症特异性微生物关联可以经由基于测序的微生物核酸检测用于诊断目的。事实上,Poore等人曾表示,检测患者血浆样本中的微生物DNA(mbDNA)片段可以正确地区分各种癌症和非癌症样本(PMID:32214244和PCT WO 2020/093040)。
[0004]在Poore等人的研究中,根据测序读数是否映射到人类参考基因组,计算分离了来自全血浆无细胞DNA(必然包含人类cfDNA和微生物cfDNA的混合物)的宏基因组鸟枪法测序数据。然后使用快速k
‑
mer映射方法(Kraken,PMID:24580807)将所有未映射的(即非人类)读数分类到属水平。Kraken分析的输出是样本中测序读数的分类法分类列表以及与每个分类法赋值相关的读数计数。在Poore等人的研究中,来自HIV阴性、健康供体和癌症队列(肺、前列腺和黑色素瘤)的这种配对数据(属和读数计数)被用作机器学习分类算法的输入,以识别每种癌症 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种确定对象是否存在癌症的方法,所述方法包括:(a)提供对象的生物样本的一个或多个测序读数;(b)用基因组数据库过滤所述测序读数,以产生一组过滤的非人类测序读数;(c)将所述非人类测序读数翻译成非人类蛋白质;(d)将所述非人类蛋白质映射到蛋白质数据库,从而产生一组蛋白质数据库关联;以及(e)当向经训练的模型提供所述一组蛋白质数据库关联的输入时,以所述经训练的模型的输出的形式确定所述对象是否存在癌症。2.根据权利要求1所述的方法,其中所述一组蛋白质数据库关联包括一组功能基因、生化途径或它们的任意组合。3.根据权利要求1所述的方法,还包括在(c)之前净化所述过滤的非人类测序读数,以去除污染的非人类测序读数。4.根据权利要求1所述的方法,其中翻译是在计算机中完成的。5.根据权利要求1所述的方法,其中所述生物样本是组织、液体活检物或它们的任意组合。6.根据权利要求1所述的方法,其中所述对象是人类或非人类哺乳动物。7.根据权利要求1所述的方法,其中所述生物样本包括核酸组合物,其中所述核酸组合物包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA或它们的任意组合。8.根据权利要求1所述的方法,其中所述基因组数据库是人类基因组数据库。9.根据权利要求1所述的方法,其中所述经训练的模型是用一组功能基因和生化途径丰度训练的,所述功能基因和生化途径丰度以感兴趣癌症的特征丰度存在或不存在。10.根据权利要求1所述的方法,其中非人类序列源自细菌、古细菌、真菌、病毒或它们的任意组合的生命起源。11.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的类别或组织特异性位置。12.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定所述对象的一种或多种癌症类型。13.根据权利要求12所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的一种或多种亚型。14.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定所述对象的癌症期、所述对象的癌症预后或它们的任意组合。15.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定是否存在处于肿瘤早期(I期或II期)的癌症。16.根据权利要求1所述的方法,其中所述经训练的模型被配置为当向所述对象提供免疫疗法时,确定所述对象的免疫疗法反应。17.根据权利要求1所述的方法,还包括用所述经训练的模型输出针对所述对象的疗法以治疗所述对象的癌症,其中当施用治疗剂时,所述对象将以积极的治疗效果响应。18.根据权利要求1所述的方法,其中所述对象的所述癌症包括:急性髓样白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞、肾透明细
胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体内膜癌、葡萄膜黑色素瘤或它们的任意组合。19.根据权利要求5所述的方法,其中所述液体活检物包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气体冷凝液或它们的任意组合。20.根据权利要求1所述的方法,其中过滤包括通过bowtie2、Kraken或它们的任意组合的程序对所述测序读数进行计算过滤。21.根据权利要求1所述的方法,其中所述蛋白质数据库是UniRef数据库。22.根据权利要求1所述的方法,其中所述翻译由BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND或它们的任意组合的软件包来完成。23.根据权利要求2所述的方法,其中所述非人类蛋白质向所述生化途径的所述映射是通过将非人类蛋白质映射到KEGG、MetaCyc、PANTHER Pathway、PathBank或它们的任意组合的数据库来实现的。24.根据权利要求2所述的方法,其中用软件包MinPath生成所述生化途径。25.一种提供对对象是否存在癌症的确定的方法,所述方法包括:(a)对对象的生物样本的核酸组合物进行测序,从而生成测序读数;(b)用基因组数据库过滤所述测序读数,以产生一组过滤的非人类测序读数;(c)将所述非人类测序读数翻译成非人类蛋白质;(d)将所述非人类蛋白质映射到蛋白质数据库,从而产生一组蛋白质数据库关联;以及(e)当向经训练的模型提供所述一组蛋白质数据库关联的输入时,以所述经训练的模型的输出的形式提供对所述对象是否存在癌症的确定。26.根据权利要求25所述的方法,其中所述一组蛋白质数据库关联包括一组功能基因、生化途径或它们的任意组合。27.根据权利要求25所述的方法,还包括在(c)之前净化所述过滤的非人类测序读数,以去除污染的非人类测序读数。28.根据权利要求25所述的方法,其中翻译是在计算机中完成的。29.根据权利要求25所述的方法,其中所述生物样本是组织、液体活检样本或它们的任意组合。30.根据权利要求25所述的方法,其中所述对象是人类或非人类哺乳动物。31.根据权利要求25所述的方法,其中所述生物样本包括核酸组合物,其中所述核酸组合物包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA或它们的任意组合。32.根据权利要求25所述的方法,其中所述基因组数据库是人类基因组数据库。33.根据权利要求25所述的方法,其中所述经训练的模型是用一组功能基因和生化途径丰度训练的,所述功能基因和生化途径丰度以感兴趣癌症的特征丰度存在或不存在。34.根据权利要求25所述的方法,其中非人类序列源自细菌、古细菌、真菌、病毒或它们的任意组合的生命起源。35.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的类别或组织特异性位置。
36.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的一种或多种类型。37.根据权利要求36所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的一种或多种亚型。38.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定所述对象的癌症期、所述对象的癌症预后或它们的任意组合。39.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定是否存在处于肿瘤早期(I期或II期)的癌症。40.根据权利要求25所述的方法,其中所述经训练的模型被配置为当向所述对象提供免疫疗法时,确定所述对象的免疫疗法反应。41.根据权利要求25所述的方法,还包括用所述经训练的模型输出针对所述对象的疗法以治疗所述对象的癌症,其中当施用所述疗法时,所述对象将以积极的治疗效果响应。42.根据权利要求25所述的方法,其中所述对象的所述癌症包括:急性髓样白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体内膜癌、葡萄膜黑色素瘤或它们的任意组合。43.根据权利要求29所述的方法,其中所述液体活检物包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气体冷凝液或它们的任意组合。44.根据权利要求25所述的方法,其中过滤包括通过bowtie2、Kraken或它们的任意组合的程序对所述测序读数进行计算过滤。45.根据权利要求25所述的方法,其中所述蛋白质数据库是UniRef数据库。46.根据权利要求25所述的方法,其中翻译由BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND或它们的任意组合的软件包来完成。47.根据权利要求26所述的方法,其中所述非人类蛋白向所述生化途径的所述映射是通过将非人类蛋白质映射到KEGG、MetaCyc、PANTHER Pathway、PathBank或它们的任意组合的数据库来实现的。48.根据权利要求26所述的方法,其中用软件包MinPath生成所述生化途径。49.一种对模型进行训练的方法,所述模型被配置为确定对象是否存在癌症,所述方法包括:(a)提供数据集,所述数据集包括第一组一个或多个对象的核酸组合物的核酸测序读数和所述第一组一个或多个对象的相应的一种或多种癌症;(b)用基因组数据库的一个版本来过滤所述核酸测序读数,以生成非人类测序读数;(c)将所述非人类测序读数翻译成非人类蛋白质;(d)将所述非人类蛋白质映射到蛋白质数据库,从而产生一组蛋白质数据库关联;以及(e)用所述一组蛋白质数据库关联和所述第一组一个或多个对象的相应的一种或多种
癌症状态对模型进行训练,从而生成被配置为确定第二组一个或多个对象是否存在癌症的经训练的模型。50.根据权利要求49所述的方法,其中所述一组蛋白质数据库关联包括一组功能基因、生化途径或它们的任意组合。51.根据权利要求49所述的方法,还包括在(c)之前净化所述过滤的非人类测序读数,以去除污染的非人类测序读数。52.根据权利要求49所述的方法,其中翻译是在计算机中完成的。53.根据权利要求49所述的方法,其中所述生物样本是组织、液体活检样本或它们的任意组合。54.根据权利要求49所述的方法,其中所述第一组、第二组或它们的任意组合的一个或多个对象是人类或非人类哺乳动物。55.根据权利要求49所述的方法,其中所述生物样本包括核酸组合物,其中所述核酸组合物包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA或它们的任意组合。56.根据权利要求49所述的方法,其中所述基因组数据库是人类基因组数据库。57.根据权利要求49所述的方法,其中所述经训练的模型是用一组功能基因和生化途径丰度训练的,所述功能基因和生化途径丰度以感兴趣癌症的特征丰度存在或不存在。58.根据权利要求49所述的方法,其中非人类序列源自细菌、古细菌、真菌、病毒或它们的任意组合的生命起源。59.根据权利要求49所述的方法,其中所述经训练的模型被配...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。