基于回归模型的基因样本污染批量检测方法、装置、设备及介质制造方法及图纸

技术编号:38568535 阅读:10 留言:0更新日期:2023-08-22 21:05
本申请提供基于回归模型的基因样本污染批量检测方法、装置、设备及介质,包括:获取基因样本的遗传突变位点及遗传突变位点的变异频率信息,并计算预设变异频率段内的突变位点分布频率;使用岭回归分类模型对预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测;使用线性回归模型对预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测;通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。基于岭回归分类模型的污染预测,其AUC值可高达0.93,基于线性回归模型的污染比例预测,其决定系数R2的均值可达0.92,提供了一种可以应用于范围较小的panel、批量检测且不依赖于配对样本、能快速并精准地评估污染比例的工具。并精准地评估污染比例的工具。并精准地评估污染比例的工具。

【技术实现步骤摘要】
基于回归模型的基因样本污染批量检测方法、装置、设备及介质


[0001]本申请涉及基因样本污染预测
,特别是涉及基于回归模型的基因样本污染批量检测方法、装置、设备及介质。

技术介绍

[0002]高通量二代测序(Next generation sequencing,NGS)方法已经成为研究基因组结构和详细信息的重要手段,并应用于多个领域,如癌症、遗传等。NGS是肿瘤领域非常重要的技术平台,能够帮助医生在较短时间内准确、详细地了解患者的DNA突变情况,辅助指导临床用药等。
[0003]然而,时常出现的样本污染对基因突变的检测带来巨大的影响,主要存在3种DNA污染:跨个体污染、跨物种污染和个体本身的污染。即使样本的污染水平很低,也会对突变检测的调用产生严重影响,导致特异性降低。
[0004]在NGS检测中,在样本储存、制备等过程中,由于多个样本是并行处理,导致很容易发生相邻样本之间异源DNA交叉污染的风险。
[0005]NGScheckmate是基于模型的方法来比较已知单核苷酸多态性的等位基因reads比例,通过深度相似性来确定样本相关性,并利用相关性检测匹配样本的工具;NGSCheckMate对各种数据类型都有较好的表现,包括外显子组测序、全基因组测序、RNA

seq、ChIP

seq、靶向测序和单细胞全基因组测序,对测序深度要求最低(>0.5X);但是它只能检测两个样本是否匹配,无法确定样本之间是否有相互污染及污染比例。
[0006]Broad研究所Kristian Cibulskis等人的ContEst也是一种常见的污染评估工具,根据配对样本的基因型信息,基于贝叶斯最大后验概率评估样本的污染比例;但是该工具只能针对配对样本的污染评估。
[0007]Conpair采用了Jun及其同事开发的统计模型(VerifyBamID),检测全基因组和全外显子组肿瘤正常测序实验中样本交换和跨个体污染的工具;即使存在拷贝数的变化,Conpair也可测量低至0.1%的污染水平;但是却无法使用于较小的panel范围的污染。
[0008]由于样本污染情况容易发生且具有随机性,因此本领域亟需一种可以应用于范围较小的panel、批量检测且不依赖于配对样本、能快速并精准地评估污染比例的工具。

技术实现思路

[0009]鉴于以上所述现有技术的缺点,本申请的目的在于提供基于回归模型的基因样本污染批量检测方法、装置、设备及介质,用于解决难以精准且快速进行基因样本污染批量检测的技术问题。
[0010]为实现上述目的及其他相关目的,本申请的第一方面提供一种基于回归模型的基因样本污染批量检测方法,包括:获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息,并计算预设变异频率段内的突变位点分布频率;使用预先训练的岭回归分类
模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测;使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测;通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。
[0011]于本申请的第一方面的一些实施例中,所述获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息,其获取方式包括:使用基因探针进行基因捕获,并基于基因测序平台对捕获到的基因进行双端测序;对测序得到的原始数据进行数据预处理、序列比对、数据质控及突变分析处理,据以获得样本的遗传突变位点及所述遗传突变位点的变异频率信息。
[0012]于本申请的第一方面的一些实施例中,所述计算预设变异频率段内的突变位点分布频率,其计算方式包括:以样本间隔为5进行采样计算出0至100变异频率段内的分布频率。
[0013]于本申请的第一方面的一些实施例中,所述岭回归分类模型的训练方式包括:获取由多个历史样本数据构成的数据集,并按照预设比例将所述数据集划分为训练集和测试集;将训练集输入至岭回归分类模型中进行训练;对训练得到的岭回归分类模型进行交叉验证;其中,所述岭回归分类模型使用基于加权最小二乘法的损失函数,以在模型拟合时,对于变异程度较小、测量更精确的数据赋予较大的权重;对于变异程度较大、测量不稳定的数据赋予较小的权重。
[0014]于本申请的第一方面的一些实施例中,所述加权最小二乘法包括惩罚加权最小二乘法,其在残差平方和最小化的基础上增加一个L2范数的惩罚项,其计算方式包括:
[0015][0016]其中,λ为非负数;为系数矩阵;y
i
表示第i个样本的实际值;表示第i个样本的模型预测值;代表了实际值与模型预测值之间的距离。
[0017]于本申请的第一方面的一些实施例中,通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况,其过程包括:判断所述预测值是否大于预设的阳性判断值;若所述预测值大于预设的阳性判断值,则以所述预测值作为污染比例;若所述预测值不大于预设的阳性判断值,则确定为无污染。
[0018]于本申请的第一方面的一些实施例中,所述线性回归模型的训练过程包括:获取由多个历史样本数据构成的数据集,并按照预设比例将所述数据集划分为训练集和测试集;将训练集输入至线性回归模型进行训练;对训练得到的线性回归分类模型进行交叉验证;其中,所述线性回归模型使用普通最小二乘法来拟合模型的线性回归线,其计算方式包括:
[0019]其中,代表了实际值与模型预测值之间的距离;y
i
表示第i个样本的实际值;表示第i个样本的模型预测值。
[0020]于本申请的第一方面的一些实施例中,所述方法还包括:将普通最小二乘法的分析结果中的预测值、残差和标准残差记录在结果数据集中的属性字段中并生成可视化的OLS报表;所述OLS报表用以呈现OLS模型的统计结果。
[0021]为实现上述目的及其他相关目的,本申请的第二方面提供一种基于回归模型的基
因样本污染批量检测装置,包括:分布频率计算模块,用于获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息,并计算预设变异频率段内的突变位点分布频率;污染预测模块,用于使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测;污染比例计算模块,用于使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测;通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。
[0022]为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于回归模型的基因样本污染批量检测方法。
[0023]为实现上述目的及其他相关目的,本申请的第四方面提供一种计算机设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述计算机设备执行所述基于回归模型的基因样本污染批量检测方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于回归模型的基因样本污染批量检测方法,其特征在于,包括:获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息,并计算预设变异频率段内的突变位点分布频率;使用预先训练的岭回归分类模型对所述预设变异频率段内的突变位点分布频率进行基因样本是否污染的批量检测;使用预先训练的线性回归模型对所述预设变异频率段内的突变位点分布频率进行基因样本污染比例的预测;通过污染比例预测值与预设比例阈值的比较来确定基因样本污染情况。2.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法,其特征在于,所述获取基因样本的遗传突变位点及所述遗传突变位点的变异频率信息,其获取方式包括:使用基因探针进行基因捕获,并基于基因测序平台对捕获到的基因进行双端测序;对测序得到的原始数据进行数据预处理、序列比对、数据质控及突变分析处理,据以获得样本的遗传突变位点及所述遗传突变位点的变异频率信息。3.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法,其特征在于,所述计算预设变异频率段内的突变位点样本分布频率,其计算方式包括:以样本间隔为5进行采样计算出0至100变异频率段内的分布频率。4.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法,其特征在于,所述岭回归分类模型的训练方式包括:获取由多个历史样本数据构成的数据集,并按照预设比例将所述数据集划分为训练集和测试集;将训练集输入至岭回归分类模型中进行训练;对训练得到的岭回归分类模型进行交叉验证;其中,所述岭回归分类模型使用基于加权最小二乘法的损失函数,以在模型拟合时,对于变异程度较小、测量更精确的数据赋予较大的权重;对于变异程度较大、测量不稳定的数据赋予较小的权重。5.根据权利要求4所述的基于回归模型的基因样本污染批量检测方法,其特征在于,所述加权最小二乘法包括惩罚加权最小二乘法,其在残差平方和最小化的基础上增加一个L2范数的惩罚项,其计算方式包括:其中,λ为非负数;为系数矩阵;y
i
表示第i个样本的实际值;表示第i个样本的模型预测值;代表了实际值与模型预测值之间的距离。6.根据权利要求1所述的基于回归模型的基因样本污染批量检测方法,其特征在于,...

【专利技术属性】
技术研发人员:周艺华张慧杨峰洪跟东
申请(专利权)人:上海睿璟生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1