通过非人类宏基因组途径分析进行癌症诊断和分类制造技术

技术编号:39159059 阅读:7 留言:0更新日期:2023-10-23 15:01
提供了通过非人类宏基因组途径分析进行癌症诊断和分类的方法。癌症诊断和分类的方法。癌症诊断和分类的方法。

【技术实现步骤摘要】
【国外来华专利技术】通过非人类宏基因组途径分析进行癌症诊断和分类
[0001]交叉引用
[0002]本申请要求2020年11月16日提交的美国临时专利申请第63/114,447号的权益,其全部内容通过引用并入本文。

技术介绍

[0003]最近对不同癌症类型的研究表明,肿瘤具有内源性微生物组,该内源性微生物组可用于改善预后、诊断、治疗选择,并加强我们对肿瘤内生物学的理解。迄今为止,已有报道为乳腺癌、前列腺癌、结肠癌、脑癌、骨癌、皮肤癌和胰腺癌中的肿瘤特有微生物组提供了证据。微生物如何在肿瘤中生存尚存在争议,但已经证明,独立于病因学,癌症特异性微生物关联可以经由基于测序的微生物核酸检测用于诊断目的。事实上,Poore等人曾表示,检测患者血浆样本中的微生物DNA(mbDNA)片段可以正确地区分各种癌症和非癌症样本(PMID:32214244和PCT WO 2020/093040)。
[0004]在Poore等人的研究中,根据测序读数是否映射到人类参考基因组,计算分离了来自全血浆无细胞DNA(必然包含人类cfDNA和微生物cfDNA的混合物)的宏基因组鸟枪法测序数据。然后使用快速k

mer映射方法(Kraken,PMID:24580807)将所有未映射的(即非人类)读数分类到属水平。Kraken分析的输出是样本中测序读数的分类法分类列表以及与每个分类法赋值相关的读数计数。在Poore等人的研究中,来自HIV阴性、健康供体和癌症队列(肺、前列腺和黑色素瘤)的这种配对数据(属和读数计数)被用作机器学习分类算法的输入,以识别每种癌症类型的独特特征。使用基于分类法的分类的一个缺点是,尽管分类法赋值对癌症分类有用,但不能直接告知肿瘤相关微生物群可以提供什么(如果有的话)癌症特异性生化能力。拥有一种既能分类和诊断癌症又能提供与生化能力的存在/丰度相关的信息的方法可以帮助阐明肿瘤内微生物群如何通过提供或消耗肿瘤所需的或产生的代谢物来促进肿瘤特异性生物学研究。
[0005]与该领域相关的其他现有技术如下:美国公开号2018/0223338描述了使用实体组织微生物组或鼠尾草微生物组来识别和诊断头颈癌;美国公开号2018/0258495Al描述了使用实体组织微生物组或粪便微生物组来检测结肠癌、与结肠癌相关的某些种类的突变,以及收集和扩增相应微生物的试剂盒。PCT WO 2019/191649描述了使用无细胞微生物DNA和机器学习模型来区分患有晚期腺瘤和/或结直肠癌的对象与健康对象,其中机器学习算法依赖于映射到参考基因组的DNA序列读数作为输入,以用于分析。

技术实现思路

[0006]本文提供的公开描述了能够仅使用来自组织或液体活检样本的非人类来源的核酸来准确诊断或确定癌症和其他疾病的存在与否、其亚型,以及其对某些疗法产生反应的可能性的系统和方法。具体地,本专利技术提供了可以识别活检样本(例如,液体或组织活检物)中存在的微生物功能基因(及其片段)和生化途径的存在和丰度的方法。在一些情况下,微生物功能基因和生化途径可用于训练一种或多种模型和/或预测模型,如本文别处所述。这
种经训练的模型可以输出对象是否存在癌症的确定,或者对象接受治疗后的治疗反应的可能性和/或疗效的确定。
[0007]本文公开的本专利技术的方法提供了一种生成诊断模型的方法,该诊断模型能够对癌症进行诊断和分类,同时还提供关于生化能力的存在和/或丰度的信息,以阐明肿瘤内微生物群对肿瘤特异性生物学的贡献。在一些情况下,肿瘤特异性生物学可能与肿瘤内微生物群如何促进消耗肿瘤所需或产生的代谢物有关。例如,基于途径的分析可以帮助阐明微生物催化的治疗性小分子的转化,和可以改变所述分子的体内效果的酶活性。为了使用直接涉及微生物活性的治疗案例给出一个具体的实例——细菌介导的化疗药物吉西他滨中胞苷部分的脱氨基作用:已经表明,表达胞苷脱氨酶(cdd)长同工型的细菌可以将活性形式的吉西他滨转化为治疗效果较差的2
’2‑
二氟脱氧尿苷(PMID:28912244)。以此作为生化测试案例,本文公开的本专利技术旨在解决不能通过对象的循环微生物DNA来诊断其癌症的问题,如Poore等人所详述的,同时检测cdd的癌症相关同工型的存在/不存在或丰度。鉴于此实例,在一些实施方案中,本文公开的方法可以不是仅限于诊断对象的癌症,还可以预测如果发现对象携带cdd的长同工型,则可能对吉西他滨治疗没有反应。
[0008]在一些实施方案中,本文提供的公开的各方面包括一种确定对象是否存在癌症的方法。在一些实施方案中,该方法包括:(a)提供对象的生物样本的一个或多个测序读数;(b)用基因组数据库过滤测序读数,以产生一组过滤的非人类测序读数;(c)将非人类测序读数翻译成非人类蛋白质;(d)将非人类蛋白质映射到蛋白质数据库,从而产生一组蛋白质数据库关联;以及(e)当向经训练的模型提供该组蛋白质数据库关联的输入时,以经训练的模型的输出的形式确定对象是否存在癌症。在一些实施例中,该组蛋白质数据库关联包括一组功能基因、生化途径或它们的任意组合。在一些实施方案中,该方法还包括在(c)之前净化过滤的非人类测序读数,以去除污染的非人类测序读数。在一些实施方案中,翻译是在计算机中完成的。在一些实施方案中,生物样本是组织、液体活检物或它们的任意组合。在一些实施方案中,对象是人类或非人类哺乳动物。在一些实施方案中,生物样本包括核酸组合物,其中核酸组合物包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA或它们的任意组合。在一些实施方案中,基因组数据库是人类基因组数据库。在一些实施方案中,经训练的模型是用一组功能基因和生化途径丰度训练的,该功能基因和生化途径丰度以感兴趣癌症的特征丰度存在或不存在。在一些实施方案中,非人类序列源自细菌、古细菌、真菌、病毒或它们的任意组合的生命起源。在一些实施方案中,经训练的模型被配置为确定对象的癌症的类别或组织特异性位置。在一些实施方案中,经训练的模型被配置为确定对象的一种或多种癌症类型。在一些实施方案中,经训练的模型被配置为确定对象的癌症的一种或多种亚型。在一些实施方案中,经训练的模型被配置为确定对象的癌症期、对象的癌症预后或它们的任意组合。在一些实施方案中,经训练的模型被配置为确定是否存在处于肿瘤早期(I期或II期)的癌症。在一些实施方案中,经训练的模型被配置为当向第二组一个或多个对象提供免疫疗法时,确定第二组一个或多个对象的免疫疗法反应。在一些实施方案中,该方法还包括用经训练的模型输出针对对象的疗法以治疗对象的癌症,其中当施用该治疗剂时,对象将以积极的治疗效果响应。在一些实施方案中,对象的癌症包括:急性髓样白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细
胞、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种确定对象是否存在癌症的方法,所述方法包括:(a)提供对象的生物样本的一个或多个测序读数;(b)用基因组数据库过滤所述测序读数,以产生一组过滤的非人类测序读数;(c)将所述非人类测序读数翻译成非人类蛋白质;(d)将所述非人类蛋白质映射到蛋白质数据库,从而产生一组蛋白质数据库关联;以及(e)当向经训练的模型提供所述一组蛋白质数据库关联的输入时,以所述经训练的模型的输出的形式确定所述对象是否存在癌症。2.根据权利要求1所述的方法,其中所述一组蛋白质数据库关联包括一组功能基因、生化途径或它们的任意组合。3.根据权利要求1所述的方法,还包括在(c)之前净化所述过滤的非人类测序读数,以去除污染的非人类测序读数。4.根据权利要求1所述的方法,其中翻译是在计算机中完成的。5.根据权利要求1所述的方法,其中所述生物样本是组织、液体活检物或它们的任意组合。6.根据权利要求1所述的方法,其中所述对象是人类或非人类哺乳动物。7.根据权利要求1所述的方法,其中所述生物样本包括核酸组合物,其中所述核酸组合物包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA或它们的任意组合。8.根据权利要求1所述的方法,其中所述基因组数据库是人类基因组数据库。9.根据权利要求1所述的方法,其中所述经训练的模型是用一组功能基因和生化途径丰度训练的,所述功能基因和生化途径丰度以感兴趣癌症的特征丰度存在或不存在。10.根据权利要求1所述的方法,其中非人类序列源自细菌、古细菌、真菌、病毒或它们的任意组合的生命起源。11.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的类别或组织特异性位置。12.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定所述对象的一种或多种癌症类型。13.根据权利要求12所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的一种或多种亚型。14.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定所述对象的癌症期、所述对象的癌症预后或它们的任意组合。15.根据权利要求1所述的方法,其中所述经训练的模型被配置为确定是否存在处于肿瘤早期(I期或II期)的癌症。16.根据权利要求1所述的方法,其中所述经训练的模型被配置为当向所述对象提供免疫疗法时,确定所述对象的免疫疗法反应。17.根据权利要求1所述的方法,还包括用所述经训练的模型输出针对所述对象的疗法以治疗所述对象的癌症,其中当施用治疗剂时,所述对象将以积极的治疗效果响应。18.根据权利要求1所述的方法,其中所述对象的所述癌症包括:急性髓样白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞、肾透明细
胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体内膜癌、葡萄膜黑色素瘤或它们的任意组合。19.根据权利要求5所述的方法,其中所述液体活检物包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气体冷凝液或它们的任意组合。20.根据权利要求1所述的方法,其中过滤包括通过bowtie2、Kraken或它们的任意组合的程序对所述测序读数进行计算过滤。21.根据权利要求1所述的方法,其中所述蛋白质数据库是UniRef数据库。22.根据权利要求1所述的方法,其中所述翻译由BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND或它们的任意组合的软件包来完成。23.根据权利要求2所述的方法,其中所述非人类蛋白质向所述生化途径的所述映射是通过将非人类蛋白质映射到KEGG、MetaCyc、PANTHER Pathway、PathBank或它们的任意组合的数据库来实现的。24.根据权利要求2所述的方法,其中用软件包MinPath生成所述生化途径。25.一种提供对对象是否存在癌症的确定的方法,所述方法包括:(a)对对象的生物样本的核酸组合物进行测序,从而生成测序读数;(b)用基因组数据库过滤所述测序读数,以产生一组过滤的非人类测序读数;(c)将所述非人类测序读数翻译成非人类蛋白质;(d)将所述非人类蛋白质映射到蛋白质数据库,从而产生一组蛋白质数据库关联;以及(e)当向经训练的模型提供所述一组蛋白质数据库关联的输入时,以所述经训练的模型的输出的形式提供对所述对象是否存在癌症的确定。26.根据权利要求25所述的方法,其中所述一组蛋白质数据库关联包括一组功能基因、生化途径或它们的任意组合。27.根据权利要求25所述的方法,还包括在(c)之前净化所述过滤的非人类测序读数,以去除污染的非人类测序读数。28.根据权利要求25所述的方法,其中翻译是在计算机中完成的。29.根据权利要求25所述的方法,其中所述生物样本是组织、液体活检样本或它们的任意组合。30.根据权利要求25所述的方法,其中所述对象是人类或非人类哺乳动物。31.根据权利要求25所述的方法,其中所述生物样本包括核酸组合物,其中所述核酸组合物包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA或它们的任意组合。32.根据权利要求25所述的方法,其中所述基因组数据库是人类基因组数据库。33.根据权利要求25所述的方法,其中所述经训练的模型是用一组功能基因和生化途径丰度训练的,所述功能基因和生化途径丰度以感兴趣癌症的特征丰度存在或不存在。34.根据权利要求25所述的方法,其中非人类序列源自细菌、古细菌、真菌、病毒或它们的任意组合的生命起源。35.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的类别或组织特异性位置。
36.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的一种或多种类型。37.根据权利要求36所述的方法,其中所述经训练的模型被配置为确定所述对象的所述癌症的一种或多种亚型。38.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定所述对象的癌症期、所述对象的癌症预后或它们的任意组合。39.根据权利要求25所述的方法,其中所述经训练的模型被配置为确定是否存在处于肿瘤早期(I期或II期)的癌症。40.根据权利要求25所述的方法,其中所述经训练的模型被配置为当向所述对象提供免疫疗法时,确定所述对象的免疫疗法反应。41.根据权利要求25所述的方法,还包括用所述经训练的模型输出针对所述对象的疗法以治疗所述对象的癌症,其中当施用所述疗法时,所述对象将以积极的治疗效果响应。42.根据权利要求25所述的方法,其中所述对象的所述癌症包括:急性髓样白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体内膜癌、葡萄膜黑色素瘤或它们的任意组合。43.根据权利要求29所述的方法,其中所述液体活检物包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气体冷凝液或它们的任意组合。44.根据权利要求25所述的方法,其中过滤包括通过bowtie2、Kraken或它们的任意组合的程序对所述测序读数进行计算过滤。45.根据权利要求25所述的方法,其中所述蛋白质数据库是UniRef数据库。46.根据权利要求25所述的方法,其中翻译由BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND或它们的任意组合的软件包来完成。47.根据权利要求26所述的方法,其中所述非人类蛋白向所述生化途径的所述映射是通过将非人类蛋白质映射到KEGG、MetaCyc、PANTHER Pathway、PathBank或它们的任意组合的数据库来实现的。48.根据权利要求26所述的方法,其中用软件包MinPath生成所述生化途径。49.一种对模型进行训练的方法,所述模型被配置为确定对象是否存在癌症,所述方法包括:(a)提供数据集,所述数据集包括第一组一个或多个对象的核酸组合物的核酸测序读数和所述第一组一个或多个对象的相应的一种或多种癌症;(b)用基因组数据库的一个版本来过滤所述核酸测序读数,以生成非人类测序读数;(c)将所述非人类测序读数翻译成非人类蛋白质;(d)将所述非人类蛋白质映射到蛋白质数据库,从而产生一组蛋白质数据库关联;以及(e)用所述一组蛋白质数据库关联和所述第一组一个或多个对象的相应的一种或多种
癌症状态对模型进行训练,从而生成被配置为确定第二组一个或多个对象是否存在癌症的经训练的模型。50.根据权利要求49所述的方法,其中所述一组蛋白质数据库关联包括一组功能基因、生化途径或它们的任意组合。51.根据权利要求49所述的方法,还包括在(c)之前净化所述过滤的非人类测序读数,以去除污染的非人类测序读数。52.根据权利要求49所述的方法,其中翻译是在计算机中完成的。53.根据权利要求49所述的方法,其中所述生物样本是组织、液体活检样本或它们的任意组合。54.根据权利要求49所述的方法,其中所述第一组、第二组或它们的任意组合的一个或多个对象是人类或非人类哺乳动物。55.根据权利要求49所述的方法,其中所述生物样本包括核酸组合物,其中所述核酸组合物包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA或它们的任意组合。56.根据权利要求49所述的方法,其中所述基因组数据库是人类基因组数据库。57.根据权利要求49所述的方法,其中所述经训练的模型是用一组功能基因和生化途径丰度训练的,所述功能基因和生化途径丰度以感兴趣癌症的特征丰度存在或不存在。58.根据权利要求49所述的方法,其中非人类序列源自细菌、古细菌、真菌、病毒或它们的任意组合的生命起源。59.根据权利要求49所述的方法,其中所述经训练的模型被配...

【专利技术属性】
技术研发人员:斯蒂芬
申请(专利权)人:麦克诺玛公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1