System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物细胞识别,具体来说,涉及一种意义未明的克隆性造血识别及其应用方法。
技术介绍
1、意义未明的克隆性造血(clonal hematopoiesis of indeterminate potential,chip)是指造血干细胞逐渐产生的体细胞突变。与骨髓异常综合征相比,chip变异存在克隆性增生特点,没有血细胞减少和造血细胞发育不良的特点。按发生频率排序,chip排名前三的热点基因为dnmt3a、tet2和asxl1。 此外chip变异存在少量热点突变,而大部分chip为非热点变异。已有研究表明chip变异与年龄正相关,存在碱基突变环境偏好, 其中 c>t占比最多。chip片段与其他白细胞来源片段长度基本一致,峰值在166bp,长于ctdna片段长度。
2、2019年,一项由msk和grail发起的研究显示,肿瘤患者血液中53.2%突变来源于血液中chip变异。2021年jensen等人的研究显示,前列腺癌cfdna中的parp抑制剂候选靶点变异约一半来源于chip。近年来基于ctdna的mrd检测越来越流行,mrd分为tumor-inform (肿瘤知情)和tumor-naive (肿瘤不知情)技术路线。tumor-naive策略无需先验突变信息,能够有效克服肿瘤异质和肿瘤组织样本不可及的问题,但其中混杂的chip变异可能会导致mrd判定假阳性问题。因此准确区分ctdna和chip,可以有效降低mrd假阳性。准确识别变异来源于ctdna还是chip,对肿瘤的精准治疗有重要作用。
3
技术实现思路
1、针对现有临床检测中多采用血浆超深结合白细胞中等深度测序方案,利用配对检测过滤chip;但是模拟分析表明,白细胞中等深度测序将导致低vaf的chip位点漏检,从而导致chip误判为ctdna突变,干扰用药指导和mrd检测结果的问题,本专利技术提供了一种意义未明的克隆性造血识别及其应用方法。
2、为实现上述技术目的,本专利技术采用的技术方案如下:
3、一种意义未明的克隆性造血识别方法,包括步骤:
4、s1、在商检流程数据中收集已知的chip和ctdna变异;
5、s2、对每个位点分别计算位点中的特征值;
6、s3、构建chip和ctdna变异预测评估模型,采用网格搜索寻找模型最优参数;
7、s4、白细胞超深验证:对预测为chip位点中的白细胞变异支持数为0的位点,进行加深验证。
8、进一步地,步骤s3中,构建模型的详细步骤包括:
9、s301、随机按照8:2将步骤s1中收集到的chip和ctdna变异分成训练集和测试集;
10、s302、分别构建逻辑回归,xgboost和随机森林机器学习模型,采用网格搜索寻找模型最优参数;
11、s303、使用10折交叉验证计算逻辑回归,xgboost和随机森林模型的auc,比较模型性能,同时使用测试数据集计算不同模型的性能,选取最优模型。
12、进一步地,步骤s2中特征包括:wbc_derived_prob、median_isize、ch_isize_prob、genename、cosmic_hame_lymph_count、cosmic_other_count、cosmic_hame_lymph_ratio、cosmic_other_ratio、单碱基突变特征和三碱基突变特征;
13、每个特征对应计算说明为:
14、wbc_derived_prob,血浆与白细胞野生型与突变型支持数的fisher检验概率值;
15、median_isize,血浆支持变异片段中位值;
16、ch_isize_prob,额外收集30个chip和30个ctdna变异的片段长度数据,构建chip和ctdna变异的片段长度分布。已知变异来源于chip和ctdna的先验概率为0.5,依据贝叶斯公式和变异位点片段长度,计算变异来源于chip分布的后验概率;
17、genename,变异注释基因标签,独热编码转换,将dntm3a, tet2, egfr, gnas,brca2, tp53, cbl, atm, setd2, pbrm1, pms2, fbxw7分别转换成一个特征,其他基因转换成genename_other特征;
18、cosmic_hame_lymph_count,cosmic数据库中该位点在血液肿瘤出现次数;
19、cosmic_other_count,cosmic数据库中该位点在非血液肿瘤出现次数;
20、cosmic_hame_lymph_ratio,cosmic数据库中该位点在血液肿瘤出现比例;
21、cosmic_other_ratio,cosmic数据库中该位点在非血液肿瘤出现比例;
22、单碱基突变特征,独热编码,合并互补形式;
23、三碱基突变特征,结合变异位点上下游碱基,采用独热编码,合并互补形式。
24、进一步地,步骤s4中白细胞超深验证过程如下:
25、取100μl血细胞,使用血液dna提取试剂盒blood gdna purification kit(concert, cat:rc1001)提取dna;qubit做定量(thermo,cat:q33231);
26、取200 ng白细胞dna,使用covaris超声打断仪,将dna片段化成200-300 bp片段;
27、按说明书进行预文库构建kapa hyperprep kits(kapa, cat:kk8504),包括接头连接、接头纯化、indexpcr等步骤;
28、用定制化探针(chosenmed)按说明书进行杂交捕获fast hybridization andwash kit(twist bioscience, cat:101175);包括生物素化探针杂交、探针捕获、捕获后pcr等步骤;
29、使用mgi-2000测序仪(bgi)进行测序,pe100模式,每个样本20g数据。
30、使用bwa mem算法(0.7.17版本)比对测序数据到hg19参考基因组上,使用gatk(版本4.2.0.0)进行碱基质量校正和重复标记,使用vardict(版本1.8.2)进行变异位点检测。
31、一种意义未明本文档来自技高网...
【技术保护点】
1.一种意义未明的克隆性造血识别方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤S3中,构建模型的详细步骤包括:
3.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤S2中特征包括:WBC_Derived_Prob、Median_Isize、CH_Isize_Prob、GeneName、Cosmic_Hame_Lymph_Count、Cosmic_Other_Count、Cosmic_Hame_Lymph_Ratio、Cosmic_Other_Ratio、单碱基突变特征和三碱基突变特征;
4.根据权利要求1所述的一种意义未明的克隆性造血识别应用方法,其特征在于,包括步骤:
【技术特征摘要】
1.一种意义未明的克隆性造血识别方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤s3中,构建模型的详细步骤包括:
3.根据权利要求1所述的一种意义未明的克隆性造血识别方法,其特征在于,步骤s2中特征包括:wbc_derived_prob、median_isize、c...
【专利技术属性】
技术研发人员:柳焱,商宇红,张怡然,胡艺凡,李建基,段小红,
申请(专利权)人:北京求臻医学检验实验室有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。