System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于高通量转录组测序的儿童急性髓系白血病分型系统技术方案_技高网

一种基于高通量转录组测序的儿童急性髓系白血病分型系统技术方案

技术编号:41194990 阅读:2 留言:0更新日期:2024-05-07 22:23
本发明专利技术公开了一种基于高通量转录组测序的儿童急性髓系白血病分型系统,所示分型系统包括数据预处理模块、分型预测模块,所述预测模型包括特征处理转换模块和分类模块;所述分型系统能够辅助临床判读分子分型,在突变检出之外,提供表达谱特征分类的证据支持分子分型结果;通过数据转化处理,能够更好的反映不同分类的数据特征,从而减少分类模型的复杂度,避免大模型的过拟合等问题,更容易实现不同亚型的分类。

【技术实现步骤摘要】

本专利技术涉及生信分析,尤其涉及一种基于高通量转录组测序的儿童急性髓系白血病分型系统


技术介绍

1、儿童肿瘤是一种复杂的罕见疾病,白血病位居新发儿童肿瘤首位。而儿童急性髓系白血病(acute myeloid leukemia,aml)是其中一个较为少见的类型,约占儿童白血病总病例的25%。在儿童急性髓系白血病的诊断和治疗中,基因突变的对应的分子生物学特征的特征愈发重要,对预后有这显著的影响。同时,不同的分子分型特征也会影响治疗方案的选择。

2、转录组测序是一种用高通量测序技术对样本中基因的转录水平进行全面检测和分析的方法,是白血病患者初诊时常用的分子生物学诊断方法。利用转录组测序可以检测出样本中存在的与疾病的产生发展与治疗等相关的基因突变的同时,同时提供一个基因表达情况的转录组信息。

3、在应用转录组测序对患者样本进行分子分型诊断的时候,判读人员需要根据检测的基因突变结果和表达谱特征来确定患者的分子亚型。通常需要对应的专业知识和相应的经验的积累才能正确的判断复杂的情况,如同时具有多个亚型的情况的判定等。因此,一个能够综合积累的诊断数据和转录组测序结果对儿童急性髓系白血病分子亚型进行精确分类建议的软件工具能够帮助工作人员更好的完成这个亚型区分的工作。


技术实现思路

1、本专利技术的目的在于提供一种基于高通量转录组测序的儿童急性髓系白血病分型系统,实现综合积累的诊断数据和转录组测序结果对儿童急性髓系白血病分子亚型进行精确分类,从而帮助工作人员更好的完成这个亚型区分的工作。

2、有鉴于此,本专利技术的方案如下:

3、本专利技术的第一个目的在于,提出一种基于高通量转录组测序的儿童急性髓系白血病分型系统,包括:

4、数据预处理模块,用于对患者转录组测序数据的预处理,获取高质量序列,再与人类参考基因组进行比对并获得各基因上的表达量矩阵;

5、分型预测模块:用于将表达量矩阵输入预测模型获得致病分子特征及分型结果;所述预测模型包括特征处理转换模块和分类模块,特征处理转换模块以检出致病分子特征作为样本特征进行分组,并对数据特征进行转换以实现最大化不同分组的差异并最小化相同分组的差异;所述分类模块基于转化的数据特征进行分型判别。

6、进一步地,所述分型系统还包括可视化模块,用于对分型预测模块输出结果进行降维可视化映射,绘制降维后的数据点到数据库的记录背景图。

7、优选地,所述可视化模块使用umap或者tsne方法将所有数据降为到二维。

8、进一步地,所述预测模型基于临床患者转录组数据及分型结果作为数据集进行训练和测试得到。

9、进一步地,所述预测模型在训练前对表达量矩阵进行筛选,对筛选后的表达量矩阵以及对应的分型结果作为数据集进行训练;所述筛选过程包括:过滤或除去不表达或低表达的基因、去掉性别高度相关的基因、按表达量信号从大到小进行排序并取排序在前的部分基因;

10、和/或,所述数据预处理模块包括对转录测序数据进行低质量数据处理的步骤,低质量数据处理包括切除未去干净的接头序列,切除连续的低质量碱基序列,丢弃低质量的序列,丢弃长度过短的序列。

11、进一步地,所述分类模块使用python的keras包构建线性模型进行训练,选择sequential模型,并且定义dense layer,以及最终用来输出分类结果的softmax laye。

12、优选地,所述分类模块使用categorical crossentropy作为损失函数训练模型达到收敛。

13、本专利技术的第二个目的在于,提出一种非诊断为目的的儿童急性髓系白血病分型方法,步骤包括:

14、数据预处理:对患者转录组测序数据的预处理,获取高质量的fastq格式序列,再与人类参考基因组进行比对并获得各基因上的表达量矩阵;

15、分型预测:将表达量矩阵输入预测模型获得致病分子特征及分型结果;

16、所述预测模型用于特征处理转换和分类,特征处理转换过程以检出致病分子特征作为样本特征进行分组,并对数据特征进行转换以实现最大化不同分组的差异并最小化相同分组的差异;分类过程基于转化的数据特征进行分型判别。

17、上述分型方法中,非诊断为目的的分型包括无法追溯至人的样本的检测,如某样本在实验室条件下儿童急性髓系白血病分子亚型的检测,检测结果仅代表样本自身结果,即该分子亚型的存在或不存在。

18、本专利技术的第三个目的在于,提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第二个目所述分型方法的步骤。

19、本专利技术的第四个目的在于,提出计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第二个目所述分型方法的步骤。

20、相比现有技术,本专利技术的有益效果包括但不限于:

21、1.本专利技术提出的分型系统能够辅助临床判读分子分型,在突变检出之外,提供表达谱特征分类的证据支持分子分型结果;通过数据转化处理,能够更好的反映不同分类的数据特征,从而减少分类模型的复杂度,避免大模型的过拟合等问题,更容易实现不同亚型的分类。

22、2.本专利技术提出的分型系统通过数据转化处理,结合降维可视化,够实现更好地可视化效果,使得用户可以通过观察输入数据的与数据库中记录的相对关系,判断分类的结果是否准确。

本文档来自技高网...

【技术保护点】

1.一种基于高通量转录组测序的儿童急性髓系白血病分型系统,其特征在于,包括:

2.根据权利要求1所述的分型系统,其特征在于,还包括可视化模块,用于对分型预测模块输出结果进行降维可视化映射,绘制降维后的数据点到数据库的记录背景图。

3.根据权利要求2所述的分型系统,其特征在于,所述可视化模块使用umap或者tSNE方法将所有数据降为到二维。

4.根据权利要求1所述的分型系统,其特征在于,所述预测模型基于临床患者转录组数据及分型结果作为数据集进行训练和测试得到。

5.根据权利要求1所述的分型系统,其特征在于,所述预测模型在训练前对表达量矩阵进行筛选,对筛选后的表达量矩阵以及对应的分型结果作为数据集进行训练;所述筛选过程包括:过滤或除去不表达或低表达的基因、去掉性别高度相关的基因、按表达量信号从大到小进行排序并取排序在前的部分基因;

6.根据权利要求1所述的分型系统,其特征在于,所述分类模块使用Python的keras包构建线性模型进行训练,选择Sequential模型,并且定义Dense layer,以及最终用来输出分类结果的softmax laye。

7.根据权利要求6所述的分型系统,其特征在于,所述分类模块使用Categoricalcrossentropy作为损失函数训练模型达到收敛。

8.一种非诊断为目的的儿童急性髓系白血病分型方法,其特征在于,步骤包括:

9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求8所述分型方法的步骤。

10.计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8所述分型方法的步骤。

...

【技术特征摘要】

1.一种基于高通量转录组测序的儿童急性髓系白血病分型系统,其特征在于,包括:

2.根据权利要求1所述的分型系统,其特征在于,还包括可视化模块,用于对分型预测模块输出结果进行降维可视化映射,绘制降维后的数据点到数据库的记录背景图。

3.根据权利要求2所述的分型系统,其特征在于,所述可视化模块使用umap或者tsne方法将所有数据降为到二维。

4.根据权利要求1所述的分型系统,其特征在于,所述预测模型基于临床患者转录组数据及分型结果作为数据集进行训练和测试得到。

5.根据权利要求1所述的分型系统,其特征在于,所述预测模型在训练前对表达量矩阵进行筛选,对筛选后的表达量矩阵以及对应的分型结果作为数据集进行训练;所述筛选过程包括:过滤或除去不表达或低表达的基因、去掉性别高度相关的基因、按表达量信号从大到小进行排序并取排序在前...

【专利技术属性】
技术研发人员:郁逸菲柳佳琦
申请(专利权)人:上海信诺佰世医学检验有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1