System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种意义未明的克隆性造血识别及其应用方法技术_技高网

一种意义未明的克隆性造血识别及其应用方法技术

技术编号:41129085 阅读:2 留言:0更新日期:2024-04-30 17:57
本发明专利技术公开一种意义未明的克隆性造血识别及其应用方法,其识别方法包括步骤:S1、在商检流程数据中收集已知的CHIP和ctDNA变异;S2、对每个位点分别计算位点中的特征值;S3、构建CHIP和ctDNA变异预测评估模型,采用网格搜索寻找模型最优参数;S4、白细胞超深验证:对预测为CHIP位点中的白细胞变异支持数为0的位点,进行加深验证。本发明专利技术克服了白细胞与血浆测序深度差异导致的CHIP漏检,有效识别CHIP,降低了MRD和靶点检测中的假阳性问题,提高了检测性能。

【技术实现步骤摘要】

本专利技术属于生物细胞识别,具体来说,涉及一种意义未明的克隆性造血识别及其应用方法


技术介绍

1、意义未明的克隆性造血(clonal hematopoiesis of indeterminate potential,chip)是指造血干细胞逐渐产生的体细胞突变。与骨髓异常综合征相比,chip变异存在克隆性增生特点,没有血细胞减少和造血细胞发育不良的特点。按发生频率排序,chip排名前三的热点基因为dnmt3a、tet2和asxl1。 此外chip变异存在少量热点突变,而大部分chip为非热点变异。已有研究表明chip变异与年龄正相关,存在碱基突变环境偏好, 其中 c>t占比最多。chip片段与其他白细胞来源片段长度基本一致,峰值在166bp,长于ctdna片段长度。

2、2019年,一项由msk和grail发起的研究显示,肿瘤患者血液中53.2%突变来源于血液中chip变异。2021年jensen等人的研究显示,前列腺癌cfdna中的parp抑制剂候选靶点变异约一半来源于chip。近年来基于ctdna的mrd检测越来越流行,mrd分为tumor-inform (肿瘤知情)和tumor-naive (肿瘤不知情)技术路线。tumor-naive策略无需先验突变信息,能够有效克服肿瘤异质和肿瘤组织样本不可及的问题,但其中混杂的chip变异可能会导致mrd判定假阳性问题。因此准确区分ctdna和chip,可以有效降低mrd假阳性。准确识别变异来源于ctdna还是chip,对肿瘤的精准治疗有重要作用。

3、目前主要采用配对算法识别chip, 然而针对中晚期的ctdna靶向精准用药位点检测和针对早中期的ctdna-mrd检测, 多采用超深(10,000x~100,000x)血浆结合中等深度(300~3,000x)配对白细胞方案。超深血浆配合中等白细胞测序深度方案,存在血浆深度测序检测到低频变异,而配对白细胞因测序深度不足导致chip漏检的问题。而chip在配对白细胞中漏检的情况下,可能导致ctdna-mrd 和ctdna靶点检测的假阳性问题。


技术实现思路

1、针对现有临床检测中多采用血浆超深结合白细胞中等深度测序方案,利用配对检测过滤chip;但是模拟分析表明,白细胞中等深度测序将导致低vaf的chip位点漏检,从而导致chip误判为ctdna突变,干扰用药指导和mrd检测结果的问题,本专利技术提供了一种意义未明的克隆性造血识别及其应用方法。

2、为实现上述技术目的,本专利技术采用的技术方案如下:

3、一种意义未明的克隆性造血识别方法,包括步骤:

4、s1、在商检流程数据中收集已知的chip和ctdna变异;

5、s2、对每个位点分别计算位点中的特征值;

6、s3、构建chip和ctdna变异预测评估模型,采用网格搜索寻找模型最优参数;

7、s4、白细胞超深验证:对预测为chip位点中的白细胞变异支持数为0的位点,进行加深验证。

8、进一步地,步骤s3中,构建模型的详细步骤包括:

9、s301、随机按照8:2将步骤s1中收集到的chip和ctdna变异分成训练集和测试集;

10、s302、分别构建逻辑回归,xgboost和随机森林机器学习模型,采用网格搜索寻找模型最优参数;

11、s303、使用10折交叉验证计算逻辑回归,xgboost和随机森林模型的auc,比较模型性能,同时使用测试数据集计算不同模型的性能,选取最优模型。

12、进一步地,步骤s2中特征包括:wbc_derived_prob、median_isize、ch_isize_prob、genename、cosmic_hame_lymph_count、cosmic_other_count、cosmic_hame_lymph_ratio、cosmic_other_ratio、单碱基突变特征和三碱基突变特征;

13、每个特征对应计算说明为:

14、wbc_derived_prob,血浆与白细胞野生型与突变型支持数的fisher检验概率值;

15、median_isize,血浆支持变异片段中位值;

16、ch_isize_prob,额外收集30个chip和30个ctdna变异的片段长度数据,构建chip和ctdna变异的片段长度分布。已知变异来源于chip和ctdna的先验概率为0.5,依据贝叶斯公式和变异位点片段长度,计算变异来源于chip分布的后验概率;

17、genename,变异注释基因标签,独热编码转换,将dntm3a, tet2, egfr, gnas,brca2, tp53, cbl, atm, setd2, pbrm1, pms2, fbxw7分别转换成一个特征,其他基因转换成genename_other特征;

18、cosmic_hame_lymph_count,cosmic数据库中该位点在血液肿瘤出现次数;

19、cosmic_other_count,cosmic数据库中该位点在非血液肿瘤出现次数;

20、cosmic_hame_lymph_ratio,cosmic数据库中该位点在血液肿瘤出现比例;

21、cosmic_other_ratio,cosmic数据库中该位点在非血液肿瘤出现比例;

22、单碱基突变特征,独热编码,合并互补形式;

23、三碱基突变特征,结合变异位点上下游碱基,采用独热编码,合并互补形式。

24、进一步地,步骤s4中白细胞超深验证过程如下:

25、取100μl血细胞,使用血液dna提取试剂盒blood gdna purification kit(concert, cat:rc1001)提取dna;qubit做定量(thermo,cat:q33231);

26、取200 ng白细胞dna,使用covaris超声打断仪,将dna片段化成200-300 bp片段;

27、按说明书进行预文库构建kapa hyperprep kits(kapa, cat:kk8504),包括接头连接、接头纯化、indexpcr等步骤;

28、用定制化探针(chosenmed)按说明书进行杂交捕获fast hybridization andwash kit(twist bioscience, cat:101175);包括生物素化探针杂交、探针捕获、捕获后pcr等步骤;

29、使用mgi-2000测序仪(bgi)进行测序,pe100模式,每个样本20g数据。

30、使用bwa mem算法(0.7.17版本)比对测序数据到hg19参考基因组上,使用gatk(版本4.2.0.0)进行碱基质量校正和重复标记,使用vardict(版本1.8.2)进行变异位点检测。

31、一种意义未明本文档来自技高网...

【技术保护点】

1.一种意义未明的克隆性造血识别方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤S3中,构建模型的详细步骤包括:

3.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤S2中特征包括:WBC_Derived_Prob、Median_Isize、CH_Isize_Prob、GeneName、Cosmic_Hame_Lymph_Count、Cosmic_Other_Count、Cosmic_Hame_Lymph_Ratio、Cosmic_Other_Ratio、单碱基突变特征和三碱基突变特征;

4.根据权利要求1所述的一种意义未明的克隆性造血识别应用方法,其特征在于,包括步骤:

【技术特征摘要】

1.一种意义未明的克隆性造血识别方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤s3中,构建模型的详细步骤包括:

3.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤s2中特征包括:wbc_derived_prob、median_isize、c...

【专利技术属性】
技术研发人员:柳焱商宇红张怡然胡艺凡李建基段小红
申请(专利权)人:北京求臻医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1