基于机器学习的多重PCR扩增优化方法、系统、设备及介质技术方案

技术编号:37533912 阅读:15 留言:0更新日期:2023-05-12 16:01
本申请提供基于机器学习的多重PCR扩增优化方法、系统、设备及介质,本发明专利技术可基于过往研究数据,针对新设计的多重扩增NGS Panel,在无需预先进行配制、测序的情况下,获得最佳的引物对配比方案,使得最终测序数据得到理想的数据质量与数据均一性;本发明专利技术中模型建立所需采集的信息均为常规引物设计、测序检测中可采集的数据,获取便利。基于支持向量回归(Support Vector Regression,以下简称SVR)模型所获得预测结果可直接应用于Panel配制,大大缩短传统Panel引物配方研究的时间;本发明专利技术所建立的模型中,参数可调范围大,可被应用于复杂多变的预期用途,如:难扩增低覆盖度区域的扩增优化方法;针对低丰度、低完整度核酸的特别Panel优化方法等。优化方法等。优化方法等。

【技术实现步骤摘要】
基于机器学习的多重PCR扩增优化方法、系统、设备及介质


[0001]本申请涉及PCR扩增优化
,特别是涉及基于机器学习的多重PCR扩增优化方法、系统、设备及介质。

技术介绍

[0002]基于多重扩增方法的DNA二代测序文库建库技术,在医学检验领域中获得广泛应用。其基本实现方式为:设计一种多重DNA引物对的组合(称为一个Panel),使得所有目的DNA待检测区域可被该设计中的引物对所形成的扩增子完全覆盖。目的DNA经预处理后、在合适的PCR扩增条件下使用上述多重Panel进行扩增,可得到所有目标片段的扩增产物组合。所得产物后经加磁珠纯化、加接头扩增等步骤,形成可用于二代测序的文库。
[0003]与其它测序建库方法相比,多重扩增方法具有极高的操作便利性,待测区域往往可获到比较高的测序深度,准确度高,亦可根据需要简单增减引物组合、可拓展性很强。以市场上的“人类BRCA1基因和BRCA2基因突变检测试剂盒(可逆末端终止测序法)”为例,多重扩增建库技术配合相应的生物信息分析流程,可被应用于辅助诊断、用药指导等分子检验用途。
[0004]然而,多重扩增方法的Panel设计亦有其难点。PCR引物扩增中,会由诸多引物自身的分子生物学属性和扩增环境因素,导致Panel中各个引物对的扩增效率产生偏差,进而导致扩增产物的均一性不佳。在之后的测序数据中,低扩增区域往往无法获得有效的数据量覆盖、测序质量亦会受到显著影响,而高扩增区域则会造成不必要的数据量浪费。
[0005]因此,在多重扩增领域迫切需要一种工具在多重Panel设计环节中,即可对各个引物对的最佳投入量配比进行预测,以期据此在有限的测试量下,获得高质量、可用性更高的多重扩增测序数据,从而提高扩增Panel整体性能。

技术实现思路

[0006]鉴于以上所述现有技术的缺点,本申请的目的在于提供基于机器学习的多重PCR扩增优化方法、系统、设备及介质,用于解决如何提高扩增Panel整体性能的技术方案。
[0007]为实现上述目的及其他相关目的,本申请的第一方面提供一种基于机器学习的多重PCR扩增优化方法,包括:获取目标引物对的引物对特征;根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征;对所述引物组合进行基因测序,并对基因测序所得数据进行质控分析得到对应的数据质控指标,将所述数据质控指标均一化后得到引物组合的测序性能特征;将所述引物对特征、引物组合特征及测序性能特征组成特征向量;将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值;每个引物对所对应的特征向量和目的标记值构成一个样本数据;同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集;对所述引物组合的样本数据集做预处理,以基于预处理后的样本数据集训练SVR模型,以训练得到用于预测引物对的理想分子量浓度占比值的预测模型。
[0008]于本申请的第一方面的一些实施例中,获取所述目标引物对的引物对特征的方式
包括:根据目标引物对计算得到对应的引物属性,其包括引物长度与GC含量、扩增区域长度与GC含量、5'端与3'端ΔG、基因组其它区域相似度;将所述目标引物对的引物属性进行量化及均一化处理后得到对应的引物对特征。
[0009]于本申请的第一方面的一些实施例中,所述引物组合特征的获取方式包括:根据所述目标引物对所属引物组合中的其它引物对计算得到对应的引物属性,其包括其它引物对的扩增子数量、其它引物对的扩增子平均GC含量、其它引物对的平均扩增区域长度、其它引物对与目标引物对的相似度;将所述其它引物对的引物属性进行量化及均一化处理后得到对应的引物组合特征。
[0010]于本申请的第一方面的一些实施例中,对所述引物组合进行基因测序,并对基因测序所得数据进行质控分析得到对应的数据质控指标,将所述数据质控指标均一化后得到引物组合的测序性能特征,包括:基于多重扩增NGS建库对引物组合进行二代基因测序;基于二代基因测序所得数据分析得到对应的数据质控指标;将所述数据质控指标进行均一化处理后得到的特征作为测序性能特征。
[0011]于本申请的第一方面的一些实施例中,对所述引物组合的样本数据集做预处理的方式包括:采用z

score算法对所述特征向量中的每一维特征进行归一化处理,以将每一维特征转换为0至1之间的数值。
[0012]于本申请的第一方面的一些实施例中,所述方法还包括:使用带有松弛变量的SVR模型进行模型训练;所述带有松弛变量的SVR模型被表述如下:
[0013][0014][0015][0016][0017]决策函数为:
[0018]其中,w,b为模型参数,ξ
i
,为松弛变量,C为惩罚系数,为映射函数,为核函数,α
i
,为拉格朗日乘子。
[0019]于本申请的第一方面的一些实施例中,所述基于预处理后的样本数据集训练SVR模型,以训练得到用于预测引物对的理想分子量浓度占比值的预测模型,包括:将预处理后的样本数据集按照预设比例分为训练集和验证集,采用K折交叉验证进行模型参数选择,并采用高斯核函数作为核函数。
[0020]于本申请的第一方面的一些实施例中,所述方法还包括在构建得到SVR模型后,选择平均绝对误差、均方根误差以及决定系数作为评估指标来对所述SVR模型进行评估。
[0021]为实现上述目的及其他相关目的,本申请的第二方面提供一种基于机器学习的多重PCR扩增优化系统,包括特征构建模块,用于获取目标引物对的引物对特征;根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征;使用所述引物组合对参考样本进行基因测序,并对基因测序所得数据进行质控分析得到对应的数据质控指标,将所述数据质控指标均一化后得到引物组合的测序性能特征;样本构建模块,用于将所述引物对特征、引物组合特征及测序性能特征组成特征向量;将所述目标引物对所属引物组合中的分
子量浓度占比作为目的标记值;每个引物对所对应的特征向量和目的标记值构成一个样本数据;同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集;模型构建模块,用于对所述引物组合的样本数据集做预处理,以基于预处理后的样本数据集训练SVR模型,以训练得到用于预测引物对的理想分子量浓度占比值的预测模型。
[0022]为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于机器学习的多重PCR扩增优化方法。
[0023]为实现上述目的及其他相关目的,本申请的第四方面提供一种计算机设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行所述基于机器学习的多重PCR扩增优化方法。
[0024]如上所述,本申请的基于机器学习的多重PCR扩增优化方法、系统、设备及介质,具有以下有益效果:
[0025](1)本专利技术可基于过往研究数据,针对新设计的多重扩增NGS P本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的多重PCR扩增优化方法,其特征在于,包括:获取目标引物对的引物对特征;根据所述目标引物对所属引物组合中的其它引物对得到引物组合特征;对所述引物组合进行基因测序,并对基因测序所得数据进行质控分析得到对应的数据质控指标,将所述数据质控指标均一化后得到引物组合的测序性能特征;将所述引物对特征、引物组合特征及测序性能特征组成特征向量;将所述目标引物对所属引物组合中的分子量浓度占比作为目的标记值;每个引物对所对应的特征向量和目的标记值构成一个样本数据;同一引物组合中的每一引物对均对应构成一样本数据以形成样本数据集;对所述引物组合的样本数据集做预处理,以基于预处理后的样本数据集训练SVR模型,以训练得到用于预测引物对的理想分子量浓度占比值的预测模型。2.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法,其特征在于,获取所述目标引物对的引物对特征的方式包括:根据目标引物对计算得到对应的引物属性,其包括引物长度与GC含量、扩增区域长度与GC含量、5'端与3'端ΔG、基因组其它区域相似度;将所述目标引物对的引物属性进行量化及均一化处理后得到对应的引物对特征。3.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法,其特征在于,所述引物组合特征的获取方式包括:根据所述目标引物对所属引物组合中的其它引物对计算得到对应的引物属性,其包括其它引物对的扩增子数量、其它引物对的扩增子平均GC含量、其它引物对的平均扩增区域长度、其它引物对与目标引物对的相似度;将所述其它引物对的引物属性进行量化及均一化处理后得到对应的引物组合特征。4.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法,其特征在于,对所述引物组合进行基因测序,并对基因测序所得数据进行质控分析得到对应的数据质控指标,将所述数据质控指标均一化后得到引物组合的测序性能特征,包括:基于多重扩增NGS建库对引物组合进行二代基因测序;基于二代基因测序所得数据分析得到对应的数据质控指标;将所述数据质控指标进行均一化处理后得到的特征作为测序性能特征。5.根据权利要求1所述的基于机器学习的多重PCR扩增优化方法,其特征在于,对所述引物组合的样本数据集做预处理的方式包括:采用z

score算法对所述特征向量中的每一维特征进行归一化处理,以将每一维特征转换为0至1之间的数值。6.根据权利要求1所述的基于机器学习...

【专利技术属性】
技术研发人员:石涵李玉欣杨峰洪跟东
申请(专利权)人:上海睿璟生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1