System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息学领域,尤其涉及ipc分类号g16b下的领域,更具体地,涉及一种急性b淋巴细胞白血病的分子分型预测系统及其应用。
技术介绍
1、急性b淋巴细胞白血病(b-all)是一种常见儿科癌症,具有高度异质性,由数十种具有不同基因表达谱(gep)和一系列遗传改变的亚型组成,其临床病程和预后情况不同。而如果能够对患者进行准确的分子分型,则能够对不同疾病亚型提供个性化的治疗方案,提高治愈率和生存时间,并改善预后情况。
2、目前who血淋巴肿瘤分类(第5版)(who-haem5)以及国际骨髓瘤和急性白血病共识分类(icc)分别识别了总共11种和26种b-all分子亚型,使得b-all的治疗向精准医疗时代迈进。通过转录组测序(rna-seq)可以鉴定多种b-all亚型,但在临床上使用时其准确度和全面性仍存在较大局限,随着b-all遗传多样性的进展,临床检测分型方法也需优化发展。
3、而已经开发的生物信息学工作,基本是仅依赖gep进行b-all亚型分析,无法对某些元亚型进行细分,分型准确度也较低,不利于治疗方案的精确化。例如breon schmidt等研究者2022年最新的研究成果,提供了一种b-all基因表达分类器allsorts,可以通过机器学习使用rna-seq基因表达数据进行分型,但对于训练样本较少的亚型或未定义的具体亚型,只能默认为元亚型,因此对分类的准确度有明显的不利影响。
技术实现思路
1、针对现有技术的缺陷,本专利技术的目的在于提供一种基于二
2、另一方面,本专利技术的目的还在于提供一种上述急性b淋巴细胞白血病的分子分型系统的应用。
3、为达到上述专利技术目的,本专利技术采用以下技术方案:
4、本专利技术提供一种急性b淋巴细胞白血病的分子分型系统,包括:
5、数据获取单元、生信分析单元、标准化建模单元和分子分型判断单元;
6、所述数据获取单元包括样本处理模块和检测模块;
7、所述生信分析单元包括序列比对模块、表达量统计模块、变异分析模块和结构体变异分析模块;
8、所述标准化建模单元包括表达量数据建模模块和拷贝数建模模块;
9、所述样本处理模块对骨髓样本的mrna进行提取和处理;
10、所述检测模块对样本处理模块提取和处理后的样本进行测序,输出测序结果;
11、所述序列比对模块对测序结果进行分析,确定测序读段在基因组上的位置;
12、所述表达量统计模块对测序结果进行分析,输出表达量数据;
13、所述变异分析模块对测序结果进行分析,输出基因位点的读段覆盖信息和突变信息;
14、所述结构体变异分析模块对测序结果进行分析,输出外显子区域上的基因重排结果;
15、所述分子分型判断单元根据变异分析模块、结构体变异分析模块、表达量数据建模模块和拷贝数建模模块输出信息判断分子分型。
16、本专利技术基于二代测序技术,根据b-all患者骨髓样本的rna测序结果,不仅对gep特征进行分析,而是创造性地整合了表达量模型、拷贝数模型、基因融合检测结果和基因突变检测结果进行分析判断,通过多级的比对分析能够将样本细分至对应的亚型,减小未定义亚型的干扰,分型的精确度更高,从而在根据分型结果优化个性化治疗方案时,针对性更强,有利于提高患者的治愈率和生存周期。
17、优选地,所述对骨髓样本的mrna进行提取和处理的步骤包括:
18、m1:采用试剂盒对骨髓样本的mrna进行提取和片段化;
19、m2:将片段化后的mrna逆转录成cdna;
20、m3:对cdna进行纯化和末端修复;
21、m4:通过dna聚合酶对cdna进行扩增,并纯化扩增产物;
22、m5:通过毛细管电泳技术进行质量控制。
23、进一步优选地,所述对骨髓样本的mrna进行提取和处理为采用n406+nrm605-c4试剂盒(vazyma,nanjing,china)根据试剂盒的说明书进行。
24、优选地,所述测序采用测序仪进行,平均测序深度为1000x。
25、进一步优选地,所述测序仪为华大基因公司发布的测序仪mgiseq-2000。
26、优选地,所述序列比对模块对测序结果进行分析使用的软件为star。
27、优选地,所述表达量统计模块对测序结果进行分析使用的软件为htseq。
28、优选地,所述表达量数据建模模块接收表达量统计模块输出的表达量数据,进行建模分析。
29、优选地,所述表达量数据建模模块包括标准化操作和建模操作;所述标准化操作中,表达量数据随机分为训练集和测试集,训练集的表达量数据计为nij,测试集的表达量数据计为nkj;其中i和k分别表示训练集和测试集中的样本序号,j表示基因序号表达量数据,建模模块对表达量数据nij和nkj进行标准化得到标准化的表达量数据nijs和nkjs;
30、所述建模操作中,使用nijs训练机器学习模型,得到表达量拟合模型,将nkjs带入表达量拟合模型,输出信息为预测概率pk和预测结果
31、优选地,所述对表达量数据nij进行标准化的步骤包括:
32、s1:对每一个基因,计算表达量平均值排除满足的基因j,剩余基因定义为j;
33、s2:对第i样本,计算其j基因表达量总和对每一个表达量数据进行标准化操作,得到
34、s3:对第i样本,对每个样本的进行排序得到顺序统计量得到每个样本的75%分位数统计量计算该统计量数组的平均数定义为选取满足公式的第i样本定义为i,将样本i定义为基线样本;
35、s4:对第i样本,计算统计量与基线样本统计量之间的对数差异并提取{dij}j=1,2,…,m的30%分位数和70%分位数选取满足公式以及的基因j作为样本i的候选基因集合,定义为ji;
36、s5:对第i样本,计算标准化系数定义标准化因子
37、s6:计算训练集样本的平均标准化因子对每个标准化因子进行归一化,得到归一化因子
38、s7:计算标准化的表达量数据
39、优选地,所述对表达量数据nkj进行标准化按照对表达量数据nij进行标准化的步骤,保留基因j,将表达量数据替换为训练集中的表达量数据,定义标准化因子计算训练集样本的平均标准化因子对每个标准化因子进行归一化,得到归一化因子计算得到标准化的表达量数据
40、优选地,所述变异分析模块对测序结果进行分析使用的软件为gatk。
41、优选地,所述结构体变异分析模块对测序结果进行分析使用的软件为arriba。
42、优选地,所述机器学习模型包括弹性网络模型、梯度提升模型、随机森林模型、支持向量机模型中的一种。
<本文档来自技高网...【技术保护点】
1.急性B淋巴细胞白血病的分子分型系统,其特征在于,包括:
2.根据权利要求1所述的分子分型系统,其特征在于,所述表达量数据建模模块包括标准化操作和建模操作;所述标准化操作中,表达量数据随机分为训练集和测试集,训练集的表达量数据计为Nij,测试集的表达量数据计为Nkj;其中i和k分别表示训练集和测试集中的样本序号,j表示基因序号表达量数据,建模模块对表达量数据Nij和Nkj进行标准化得到标准化表达量数据NijS和NkjS;
3.根据权利要求2所述的分子分型系统,其特征在于,所述对表达量数据Nij进行标准化的步骤包括:
4.根据权利要求2或3所述的分子分型系统,其特征在于,所述机器学习模型包括弹性网络模型、梯度提升模型、随机森林模型、支持向量机模型中的一种。
5.根据权利要求1所述的分子分型系统,其特征在于,所述拷贝数建模模块接收表达量统计模块输出的表达量数据,及变异分析模块输出的基因位点的读段覆盖信息和突变信息;输出染色体条数N_chrom和第x号染色体y臂上的拷贝数变异水平log2_fdxy,x为染色体序号,选自1~21,y表示染
6.根据权利要求1所述的分子分型系统,其特征在于,所述分子分型判断单元整合输出信息的优先级依次为结构体变异分析模块输出信息、变异分析模块输出信息、拷贝数建模模块输出信息、表达量数据建模模块输出信息。
7.根据权利要求6所述的分子分型系统,其特征在于,所述分子分型判断单元根据结构体变异分析模块输出信息判断分子分型的规则包括:根据外显子区域上的基因重排结果判断融合基因的类型,所述融合基因的类型包括:
8.根据权利要求6所述的分子分型系统,其特征在于,所述分子分型判断单元根据变异分析模块输出信息判断分子分型的规则包括:根据基因位点的读段覆盖信息和突变信息判断突变位点,根据融合基因的类型判断为对应的分子分型;所述突变位点包括IKZF1(p.Asn159Tyr)、PAX5(p.P80R)、PAX5(Others)。
9.根据权利要求1所述的分子分型系统,其特征在于,所述分子分型包括:Ph、ETV6-RUNX1、KMT2A、DUX4、TCF3-PBX1、ZNF384、MEF2D、BCL2/MYC、NUTM1、HLF、CRLF2、IKZF1 N159Y、PAX5 P80R、PAX5alt、High_hyperdiploid、Low_hyperdiploid、Low_hypodiploid、Near_haploid、iAMP21、ETV6-RUNX1-like、KMT2A-like、ZNF384-like、Ph-like(JAK-STAT)、Ph-like(ABL)、Ph-like(Others)、Others。
10.权利要求1-9任一项所述的分子分型系统的应用,其特征在于,应用于急性B淋巴细胞白血病的分子分型。
...【技术特征摘要】
1.急性b淋巴细胞白血病的分子分型系统,其特征在于,包括:
2.根据权利要求1所述的分子分型系统,其特征在于,所述表达量数据建模模块包括标准化操作和建模操作;所述标准化操作中,表达量数据随机分为训练集和测试集,训练集的表达量数据计为nij,测试集的表达量数据计为nkj;其中i和k分别表示训练集和测试集中的样本序号,j表示基因序号表达量数据,建模模块对表达量数据nij和nkj进行标准化得到标准化表达量数据nijs和nkjs;
3.根据权利要求2所述的分子分型系统,其特征在于,所述对表达量数据nij进行标准化的步骤包括:
4.根据权利要求2或3所述的分子分型系统,其特征在于,所述机器学习模型包括弹性网络模型、梯度提升模型、随机森林模型、支持向量机模型中的一种。
5.根据权利要求1所述的分子分型系统,其特征在于,所述拷贝数建模模块接收表达量统计模块输出的表达量数据,及变异分析模块输出的基因位点的读段覆盖信息和突变信息;输出染色体条数n_chrom和第x号染色体y臂上的拷贝数变异水平log2_fdxy,x为染色体序号,选自1~21,y表示染色体的臂,为p或q。
6.根据权利要求1所述的分子分型系统,其特征在于,所述分子分型判断单元整合输出信息的优先级依次为结构体变异分析模块输出信息、变异分析模块输出信息、拷贝数建模模块输出信息、表达量数据建模模块输出信息。
7.根据权...
【专利技术属性】
技术研发人员:王晨阳,辛贝贝,杨建清,张瑞东,熊慧,
申请(专利权)人:上海源奇生物医药科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。