一种NGS测序中样本质量预测方法及系统技术方案

技术编号:30432685 阅读:19 留言:0更新日期:2021-10-24 17:28
本发明专利技术涉及一种通过肿瘤组织样本NGS前期实验指标预测质控是否合格的模型和软件,属于临床检验学和生物技术领域。通过提取和预文库构建过程第一天的实验指标,筛选出与质控相关的因素,通过岭回归的方法,以NGS实验流程前期的指标建立NGS质控预测模型。对于预测为质控不合格的样本及时告知患者,有效的解决患者测序生信分析后才知道自己样本不合格再重新准备的问题。将模型通过PYTHON编译并打包成小软件,实验员通过界面输入相关实验指标来预测该样本质控是否合格,适用于预测样本测序后的质控风险评估。控风险评估。

【技术实现步骤摘要】
一种NGS测序中样本质量预测方法及系统


[0001]本专利技术一种通过实验前期数据预测NGS检测质控的模型和软件,属于临床检验学和生物


技术介绍

[0002]下一代测序(next generation sequencing,NGS),又称为大规模平行测序(massively parallel sequencing,MPS),相较于传统测序技术,高通量、单碱基检测成本较低、速度较快、一次可检测大量靶基因的优势,因而广泛应用于肿瘤靶向治疗基因突变检测、遗传性肿瘤检测、遗传病及罕见病检测、染色体非整倍体无创产前筛查、病原微生物及宏基因组检测等领域。
[0003]高通量测序操作步骤多、程序复杂,分为“湿实验(wet bench)”和“干实验(dry bench)”两个阶段。“湿实验”包括样本预处理、核酸提取、基因组的片段化、预文库构建、富集、终文库构建、测序前准备及测序等;“干实验”包括测序后的数据质量分析、比对、变异识别、注释和结果报告与解释等环节。一个患者的样本经过湿实验和干实验流程大约需要7天,而当7天后才拿到最终质控,对于质控不合格的患者不仅会容易引起对技术的误解,也会影响其治疗时间。而样本的质控不合格的主要原因在于样本的质量,比如组织样本经过石蜡包埋等众多的不可控因素,存在DNA降解和碎片化的风险,从而影响该样本最后有效测序数据的产出。

技术实现思路

[0004]本专利技术解决现有技术中对组织样品提取后,不能有效快速地对样品质量进行预测,进而导致进入至后续的建库、测序的过程时,样品质量不可控,造成了整个测序流程过长、成本提高:本专利技术提供了一种预测NGS检测质控的模型和软件,通过对NGS前期实验环节的数据进行数据分析、构建模型,实现了对组织样本质控是否合格精准预测的目的。本方法能够在实验的第一天就能实现准确评估样本质量,进行质控预测,做到及时反馈临床医生和患者。
[0005]技术方案是:
[0006]一种NGS测序中样本质量预测方法,包括如下步骤:
[0007]步骤1,对组织样本依次进行DNA提取、DNA片段化、末端修复和加接头处理;
[0008]步骤2,对步骤1中得到的DNA溶液进行PCR反应;
[0009]步骤3,获取步骤1和步骤2中操作过程中DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例的数据,作为预测模型的输入变量,并以测序质控合格情况作为模型的输出变量,构建预测模型;
[0010]步骤4,对待测序的样本采用构建出的预测模型进行质控结果的预测。
[0011]优选地,所述的步骤1中,组织样本是采用苯酚氯仿抽提法、离心柱法或者磁珠法提取得到DNA。
[0012]优选地,所述的步骤1中,组织样本经过了快速冷冻处理、石蜡固定处理或者福尔马林固定处理。
[0013]优选地,所述的步骤3中,预测模型为分类器。
[0014]优选地,所述的步骤3中,所述的分类器包括:支持向量机、决策树、随机森林、逻辑回归、贝叶斯、K近邻、K均值、马尔可夫、回归岭算法中的一种。
[0015]一种NGS测序中样本质量预测系统,包括:
[0016]数据获取模块,用于获取样本提取、PCR反应过程中的DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例、质控结果的数据;
[0017]预测模块,以DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例作为预测模型的输入变量,以测序质控合格情况作为模型的输出变量,对样品处理过程进行结果预测。
[0018]优选地,所述的预测模块基于分类器构建。
[0019]优选地,所述的分类器包括:支持向量机、决策树、随机森林、逻辑回归、贝叶斯、K近邻、K均值、马尔可夫、回归岭算法中的一种。
[0020]一种计算机可读取介质,其记载有可运行上述NGS测序中样本质量预测方法的程序。
[0021]有益效果
[0022]本专利技术首次基于组织样本提取和预文库的实验参数,构建了质控预测模型,该模型能够从前期实验指标预测样本生信质控是否合格的可能性,具有通量高、检测特异性和敏感性高的优点。
附图说明
[0023]图1:质控预测模型的研究设计流程图
[0024]图2:岭回归建模,训练组ROC曲线图
[0025]图3:岭回归建模独立验证组1ROC曲线图
[0026]图4:岭回归建模前瞻性独立验证组2ROC曲线图
[0027]图5:基于PYTHON包装成软件的界面图
具体实施方式
[0028]本专利技术首次基于组织样本提取和预文库构建的实验指标,建立了预测样本质控是否合格的预测模型,提高了组织样本质控预测的特异性和敏感性。
[0029]本专利技术的预测方法是针对组织样本进行DNA提取后得到的DNA片段以及PCR过程的参数进行建模,并用于对后续进行建库、测序的质控结果进行预测。
[0030]具体的流程如下:
[0031]样本提取:从本专利技术中对组织样本提取DNA,并进行DNA浓度测定,根据加样体积计算DNA进入量。适用于本专利技术中的组织样本DNA提取方法包括:苯酚氯仿抽提法、离心柱法、磁珠法等,组织样本的处理也可以包括快速冷冻处理、石蜡固定处理、福尔马林固定处理等。在以下的实施例中,所采用的DNA提取方法是离心柱法,样本都经过了石蜡包埋处理。
[0032]DNA片段化、末端修复和加接头:将进入的DNA进行打断,获取的DNA片段进行末端
修复,加接头并纯化,然后测浓度,为加接头清洁后浓度,根据取样的体积计算加接头清洁后总量。
[0033]PCR扩增:根据的DNA浓度和进入量设置PCR循环数,PCR结束后测定PCR后浓度,并根据体积计算PCR后总量。
[0034]至此,上述的步骤中获得了本预测方法所需的输入数据量。接下来,后续可以采用常规的建库、测序过程,简述如下:通过设计的探针对上述步骤中获得的PCR扩增反应产物进行杂交捕获,通过带有链霉亲和素的磁珠进行吸附分离,再将捕获到的核酸从磁珠上洗脱,洗脱产物由于存在着损失,需要再进行PCR扩增,将扩增产物进行上机测序和下机数据分析,获得测序结果。
[0035]本专利技术中的主要术语定义是:
[0036]DNA进入量:将组织样本进行DNA提取后进入后续处理过程的总DNA量。其数据范围一般在50到250ng。
[0037]加接头清洁后浓度:将提取得到的DNA经过片段化、末端修复、加接头和清洁处理后得到的溶液中的DNA浓度。其数据与进入量和样本质量相关,一般可以在1

50ng/μL。
[0038]加接头清洁后总量:将提取得到的DNA经过片段化、末端修复、加接头和清洁处理后得到的溶液中的DNA总量。其数据与进入量和样本质量相关,一般可以在20

700ng。
...

【技术保护点】

【技术特征摘要】
1.一种NGS测序中样本质量预测方法,其特征在于,包括如下步骤:步骤1,对组织样本依次进行DNA提取、DNA片段化、末端修复和加接头处理;步骤2,对步骤1中得到的DNA溶液进行PCR反应;步骤3,获取步骤1和步骤2中操作过程中DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例的数据,作为预测模型的输入变量,并以测序质控合格情况作为模型的输出变量,构建预测模型;步骤4,对待测序的样本采用构建出的预测模型进行质控结果的预测。2.根据权利要求1所述的NGS测序中样本质量预测方法,其特征在于,优选地,所述的步骤1中,组织样本是采用苯酚氯仿抽提法、离心柱法或者磁珠法提取得到DNA。3.根据权利要求1所述的NGS测序中样本质量预测方法,其特征在于,优选地,所述的步骤1中,组织样本经过了快速冷冻处理、石蜡固定处理或者福尔马林固定处理。4.根据权利要求1所述的NGS测序中样本质量预测方法,其特征在于,优选地,所述的步骤3中,预测模型为分类器。5.根据权利要求4所述的NGS测序中样本质量预测方法,其特...

【专利技术属性】
技术研发人员:何俊俊邵阳刘凯华朱伟高宇杨岚汪笑男王晓丹焦乐晨赵瑾
申请(专利权)人:浙江大学医学院附属第一医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1