System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 对同源修复缺陷进行分类的系统和方法技术方案_技高网

对同源修复缺陷进行分类的系统和方法技术方案

技术编号:40390307 阅读:3 留言:0更新日期:2024-02-20 22:22
本文描述了用于使用一种或多种特征重要性度量来识别多个特征的子集以用于训练和使用同源修复缺陷(HRD)分类模型的方法、装置和系统。进一步描述了用于将癌症诸如胰腺癌的肿瘤分类为可能的HRD阳性或可能的HRD阴性,以及用于将肿瘤判定为HRD阳性或HRD阴性的方法、装置和系统。本文还描述了基于分类来治疗癌症诸如胰腺癌的肿瘤的方法。

【技术实现步骤摘要】
【国外来华专利技术】

本文描述了用于选择同源修复缺陷(hrd)模型的特征、使用该hrd模型来评定肿瘤以及基于该评定来治疗肿瘤的方法、装置和系统。


技术介绍

1、拷贝数畸变涉及基因组大的连续区段的缺失或扩增,并且是癌症中常见的突变。某些拷贝数畸变与无法通过同源重组修复机制修复基因组相关联,称为同源修复缺陷(hrd)。为了识别一些具有hrd的肿瘤,可以对参与同源修复途径的基因中的突变进行测序。可替代地,可以检测基因组疤痕,该基因组疤痕是hrd的物理后果,无论其原因如何。

2、表现出hrd的肿瘤基因组与对某些药物(诸如铂化疗或聚(adp)-核糖聚合酶(parp)抑制剂)的敏感性相关联。然而,某些肿瘤仍然难以分类为hrd阳性。因此,仍然需要将癌症(诸如胰腺癌、乳腺癌或前列腺癌)的肿瘤分类为hrd阳性或hrd阴性,这一点尤其重要,以便可以选择并向受试者施用合适的治疗。过去,用于识别hrd的技术因不准确和低效而无法在实践中使用。这其中的一个原因是特征选择技术目前例如由于过度拟合而不足以能够准确地确定样品的hrd状态,以便有效且准确地将所述肿瘤识别(例如,分类)为hrd阳性或hrd阴性。这其中的另一个原因是确定要识别哪些特征以准确确定hrd状态也可能是挑战。因此,需要从多个特征中准确且有效地选择可以用于训练用于执行所述识别的模型的特征的子集的技术和系统。


技术实现思路

1、本文描述了方法,该方法包括:提供从受试者的肿瘤获得的基因组;任选地,将一个或多个衔接子连接到该基因组上;从该基因组扩增核酸分子;从经扩增的基因组捕获核酸分子,其中经捕获的核酸分子是通过与一种或多种诱饵分子杂交而被捕获的;从经捕获的核酸分子得出输入特征的集合;由一个或多个处理器将该输入特征的集合输入到经训练的同源重组缺陷(hrd)模型以使用该经训练的hrd模型将该肿瘤识别为hrd阳性或hrd阴性,其中通过以下来训练该模型:确定与多个特征中的每个特征相关联的一种或多种特征重要性度量,使用该一种或多种特征重要性度量来识别该多个特征中的特征的子集,以及由该一个或多个处理器基于经识别的特征的子集来训练该hrd模型;以及由该一个或多个处理器使用该经训练的hrd模型将该肿瘤分类为hrd阳性或hrd阴性。

2、本文进一步描述了方法,该方法包括:由一个或多个处理器接收多个特征;由该一个或多个处理器使用一种或多种特征重要性度量来识别该多个特征中的特征的子集;以及由该一个或多个处理器基于经识别的该多个特征的子集来训练同源重组缺陷(hrd)模型,其中该hrd模型被配置为接收与受试者中的肿瘤的基因组相关联的样品数据,并且使用该样品数据将该受试者中的该肿瘤识别为hrd阳性或hrd阴性。

3、本文进一步描述了方法,该方法包括:由一个或多个处理器接收与受试者中的肿瘤的基因组相关联的样品数据;由该一个或多个处理器将该样品数据输入到经训练的同源重组缺陷(hrd)模型,其中通过以下来训练该hrd模型:确定与多个特征中的每个特征相关联的一种或多种特征重要性度量,使用该一种或多种特征重要量来识别该多个特征中的特征的子集,以及由该一个或多个处理器基于特征的经识别的子集来训练该hrd模型;以及由该一个或多个处理器使用该经训练的hrd模型将该肿瘤分类为hrd阳性或hrd阴性。

4、在所述方法的一些实施例中,多个特征包括一个或多个拷贝数特征、一个或多个短变体特征或其组合。在所述方法的一些实施例中,一种或多种特征重要性度量包括卡方检验、方差分析(anova)、随机森林或梯度提升中的一者或多者。

5、在所述方法的一些实施例中,识别多个特征中的特征的子集包括:由一个或多个处理器根据一种或多种特征重要性度量来获得一个或多个特征排位;以及由一个或多个处理器基于一个或多个特征排位来选择多个特征的子集。

6、在所述方法的一些实施例中,识别多个特征的子集包括:(a)由一个或多个处理器根据特征重要性度量来获得多个特征的特征排位;(b)由一个或多个处理器基于特征排位通过将来自多个特征的一个或多个特征添加到现有特征集合来获得新特征集合;(c)由一个或多个处理器使用新特征集合训练新hrd模型;(d)由一个或多个处理器评估经训练的新hrd模型以获得评估结果;和(e)由一个或多个处理器存储与新hrd模型和新特征集合相关联的评估结果;(f)由一个或多个处理器重复步骤(b)-(e)以获得多个评估结果,直到满足条件为止;以及(g)由一个或多个处理器基于多个评估结果选择多个特征的子集。

7、在所述方法的一些实施例中,经训练的hrd模型为分类模型,该方法进一步包括:接收与新受试者中的肿瘤的基因组相关联的新样品数据,其中新样品数据与多个特征的子集相关;将新样品数据提供给经训练的hrd分类模型以产生hrd阳性或hrd阴性的分类结果;以及输出分类结果。在一些实施例中,分类结果包括hrd阳性可能性得分和hrd阴性可能性得分中的至少一者。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录hrd阳性可能性得分和hrd阴性可能性得分中的至少一者。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录基于hrd阳性可能性得分肿瘤为hrd阳性或基于hrd阴性可能性得分肿瘤为hrd阴性的指定。

8、在所述方法的一些实施例中,hrd模型为分类模型、回归模型、神经网络或其任意组合。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录hrd阳性可能性得分和hrd阴性可能性得分中的至少一者。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录基于hrd阳性可能性得分肿瘤为hrd阳性或基于hrd阴性可能性得分肿瘤为hrd阴性的指定。

9、在所述方法的一些实施例中,多个特征包括区段次等位基因频率(segmaf)特征、测序读段数量特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征或具有振荡拷贝数的区段数量特征中的至少一者。在所述方法的一些实施例中,跨越基因组的着丝粒部分来评定多个特征中的至少一个。在所述方法的一些实施例中,跨越基因组的端粒部分来评定多个特征中的至少一个。

10、在所述方法的一些实施例中,跨越基因组的着丝粒部分和端粒部分二者来评定多个特征中的至少一个。

11、在所述方法的一些实施例中,多个特征包括每x兆碱基的断点计数特征,其中每x兆碱基的断点计数特征基于出现在跨越基因组的x兆碱基长度的窗口中的断点的数量。在一些实施例中,跨越以下来评定每x兆碱基的断点计数特征:(i)基因组的端粒部分;(ii)基因组的着丝粒部分;或(iii)基因组的端粒部分和着丝粒部分二者。在一些实施例中,x在约1与约100兆碱基之间。在一些实施例中,x为约10兆碱基、约25兆碱基、约50兆碱基或约100兆碱基。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。

12、在所述方法的一些实施例中,多个特征包括变化点拷贝数特征,其中变化点拷贝数基于跨越受试者的肿瘤的基因组的相本文档来自技高网...

【技术保护点】

1.一种方法,其包括:

2.一种方法,其包括:

3.一种方法,其包括:

4.根据权利要求1至3中任一项所述的方法,其中所述多个特征包括一个或多个拷贝数特征、一个或多个短变体特征或其组合。

5.根据权利要求1至4中任一项所述的方法,其中所述一种或多种特征重要性度量包括卡方检验、方差分析(ANOVA)、随机森林或梯度提升中的一者或多者。

6.根据权利要求1至5中任一项所述的方法,其中识别所述多个特征中的所述特征的子集包括:

7.根据权利要求1至5中任一项所述的方法,其中识别所述多个特征的所述子集包括:

8.根据权利要求1至7中任一项所述的方法,其中所述经训练的HRD模型为分类模型,所述方法进一步包括:

9.根据权利要求8所述的方法,其中所述分类结果包括HRD阳性可能性得分和HRD阴性可能性得分中的至少一者。

10.根据权利要求1至9中任一项所述的方法,其中所述HRD模型为分类模型、回归模型、神经网络或其任意组合。

11.根据权利要求9或权利要求10所述的方法,其包括在与所述新受试者相关联的数字电子文件中记录所述HRD阳性可能性得分和所述HRD阴性可能性得分中的至少一者。

12.根据权利要求9至11中任一项所述的方法,其包括在与所述新受试者相关联的数字电子文件中记录基于所述HRD阳性可能性得分所述肿瘤为HRD阳性或基于所述HRD阴性可能性得分所述肿瘤为HRD阴性的指定。

13.根据权利要求1至12中任一项所述的方法,其中所述多个特征包括区段次等位基因频率(segMAF)特征、测序读段数量特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征或具有振荡拷贝数的区段数量特征中的至少一者。

14.根据权利要求1至13中任一项所述的方法,其中跨越所述基因组的着丝粒部分来评定所述多个特征中的至少一者。

15.根据权利要求1至14中任一项所述的方法,其中跨越所述基因组的端粒部分来评定所述多个特征中的至少一者。

16.根据权利要求1至15中任一项所述的方法,其中跨越所述基因组的着丝粒部分和端粒部分二者来评定所述多个特征中的至少一者。

17.根据权利要求1至16中任一项所述的方法,其中所述多个特征包括每x兆碱基的断点计数特征,其中所述每x兆碱基的断点计数特征基于出现在跨越所述基因组的x兆碱基长度的窗口中的断点的数量。

18.根据权利要求17所述的方法,其中跨越以下来评定每x兆碱基的断点计数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

19.根据权利要求17或权利要求18所述的方法,其中x在约1与约100兆碱基之间。

20.根据权利要求17至19中任一项所述的方法,其中x为约10兆碱基、约25兆碱基、约50兆碱基或约100兆碱基。

21.根据权利要求17至20中任一项所述的方法,其中所述每x兆碱基的断点计数特征为分箱特征。

22.根据权利要求1至21中任一项所述的方法,其中所述多个特征包括变化点拷贝数特征,其中变化点拷贝数基于跨越所述受试者的所述肿瘤的所述基因组的相邻基因组区段之间的拷贝数绝对差异。

23.根据权利要求22所述的方法,其中所述变化点拷贝数特征是从倍性归一化拷贝数数据得出的。

24.根据权利要求22或权利要求23所述的方法,其中跨越以下来评定变化点拷贝数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

25.根据权利要求22至24中任一项所述的方法,其中所述变化点拷贝数特征为分箱特征。

26.根据权利要求1至25中任一项所述的方法,其中所述多个特征包括区段拷贝数特征,其中区段拷贝数基于每个基因组区段的拷贝数。

27.根据权利要求26所述的方法,其中跨越以下来评定所述区段拷贝数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

28.根据权利要求26或权利要求27所述的方法,其中所述区段拷贝数特征是从倍性归一化拷贝数数据得出的。

29.根据权利要求26至28中任一项所述的方法,其中所述区段拷贝数特征为分箱特征。

30.根据权利要求1至29中任一项所述的方法,其中所述多个特征包括所述受试者的所述肿瘤的所述基因组中的每个染色体臂的断点计数特征...

【技术特征摘要】
【国外来华专利技术】

1.一种方法,其包括:

2.一种方法,其包括:

3.一种方法,其包括:

4.根据权利要求1至3中任一项所述的方法,其中所述多个特征包括一个或多个拷贝数特征、一个或多个短变体特征或其组合。

5.根据权利要求1至4中任一项所述的方法,其中所述一种或多种特征重要性度量包括卡方检验、方差分析(anova)、随机森林或梯度提升中的一者或多者。

6.根据权利要求1至5中任一项所述的方法,其中识别所述多个特征中的所述特征的子集包括:

7.根据权利要求1至5中任一项所述的方法,其中识别所述多个特征的所述子集包括:

8.根据权利要求1至7中任一项所述的方法,其中所述经训练的hrd模型为分类模型,所述方法进一步包括:

9.根据权利要求8所述的方法,其中所述分类结果包括hrd阳性可能性得分和hrd阴性可能性得分中的至少一者。

10.根据权利要求1至9中任一项所述的方法,其中所述hrd模型为分类模型、回归模型、神经网络或其任意组合。

11.根据权利要求9或权利要求10所述的方法,其包括在与所述新受试者相关联的数字电子文件中记录所述hrd阳性可能性得分和所述hrd阴性可能性得分中的至少一者。

12.根据权利要求9至11中任一项所述的方法,其包括在与所述新受试者相关联的数字电子文件中记录基于所述hrd阳性可能性得分所述肿瘤为hrd阳性或基于所述hrd阴性可能性得分所述肿瘤为hrd阴性的指定。

13.根据权利要求1至12中任一项所述的方法,其中所述多个特征包括区段次等位基因频率(segmaf)特征、测序读段数量特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征或具有振荡拷贝数的区段数量特征中的至少一者。

14.根据权利要求1至13中任一项所述的方法,其中跨越所述基因组的着丝粒部分来评定所述多个特征中的至少一者。

15.根据权利要求1至14中任一项所述的方法,其中跨越所述基因组的端粒部分来评定所述多个特征中的至少一者。

16.根据权利要求1至15中任一项所述的方法,其中跨越所述基因组的着丝粒部分和端粒部分二者来评定所述多个特征中的至少一者。

17.根据权利要求1至16中任一项所述的方法,其中所述多个特征包括每x兆碱基的断点计数特征,其中所述每x兆碱基的断点计数特征基于出现在跨越所述基因组的x兆碱基长度的窗口中的断点的数量。

18.根据权利要求17所述的方法,其中跨越以下来评定每x兆碱基的断点计数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

19.根据权利要求17或权利要求18所述的方法,其中x在约1与约100兆碱基之间。

20.根据权利要求17至19中任一项所述的方法,其中x为约10兆碱基、约25兆碱基、约50兆碱基或约100兆碱基。

21.根据权利要求17至20中任一项所述的方法,其中所述每x兆碱基的断点计数特征为分箱特征。

22.根据权利要求1至21中任一项所述的方法,其中所述多个特征包括变化点拷贝数特征,其中变化点拷贝数基于跨越所述受试者的所述肿瘤的所述基因组的相邻基因组区段之间的拷贝数绝对差异。

23.根据权利要求22所述的方法,其中所述变化点拷贝数特征是从倍性归一化拷贝数数据得出的。

24.根据权利要求22或权利要求23所述的方法,其中跨越以下来评定变化点拷贝数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

25.根据权利要求22至24中任一项所述的方法,其中所述变化点拷贝数特征为分箱特征。

26.根据权利要求1至25中任一项所述的方法,其中所述多个特征包括区段拷贝数特征,其中区段拷贝数基于每个基因组区段的拷贝数。

27.根据权利要求26所述的方法,其中跨越以下来评定所述区段拷贝数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

28.根据权利要求26或权利要求27所述的方法,其中所述区段拷贝数特征是从倍性归一化拷贝数数据得出的。

29.根据权利要求26至28中任一项所述的方法,其中所述区段拷贝数特征为分箱特征。

30.根据权利要求1至29中任一项所述的方法,其中所述多个特征包括所述受试者的所述肿瘤的所述基因组中的每个染色体臂的断点计数特征。

31.根据权利要求30所述的方法,其中跨越以下来评定所述每个染色体臂的断点计数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

32.根据权利要求30或权利要求31所述的方法,其中所述每个染色体臂的断点计数特征为分箱特征。

33.根据权利要求1至32中任一项所述的方法,其中所述多个特征包括具有振荡拷贝数的区段数量特征。

34.根据权利要求33所述的方法,其中所述具有振荡拷贝数的区段数量特征基于跨越所述受试者的所述肿瘤的所述基因组的两个拷贝数之间的重复交替区段的数量。

35.根据权利要求33或权利要求34所述的方法,其中跨越以下来评定具有振荡拷贝数的区段数量特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。

36.根据权利要求33至35中任一项所述的方法,其中所述具有振荡拷贝数的区段数量特征为分箱特征。

37.根据权利要求1至36中任一项所述的方法,其中所述一个或多个拷贝数特征包括区段次等位基因频率(segmaf)特征,其中处于segmaf基于杂合单核苷酸多态性的次等位基因频率。

...

【专利技术属性】
技术研发人员:伊桑·索科尔杰伊·摩尔贾斯廷·纽伯格戴斯特·金陈奎廷
申请(专利权)人:基金会医学公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1