一种检测引物二聚体的决策树模型及其应用制造技术

技术编号:36796125 阅读:23 留言:0更新日期:2023-03-08 23:07
本发明专利技术提供了一种检测引物二聚体的方法,具体地说,这种新方法减少了通常在检测引物二聚体时产生的假阳性和假阴性结果。本发明专利技术的检测引物二聚体方法所检测到的引物二聚体准确率高,能有效的地对引物进行评估。能有效的地对引物进行评估。能有效的地对引物进行评估。

【技术实现步骤摘要】
一种检测引物二聚体的决策树模型及其应用


[0001]本专利技术属于引物二聚体的检测领域,具体地说,涉及一种检测引物二聚体的决策树模型的构建及其应用。

技术介绍

[0002]引物二聚体是一对引物或者引物自身的3

端部分碱基互补结合,在酶的作用下从3

末端延伸所形成的小分子量的双链核苷酸片段。当PCR引物其3

端有显著的互补性时,则会促进引物二聚体的形成,从而降低PCR产物的产量。此外,引物二聚体的形成也可能导致更严重的问题,如由于引物比例不平衡而导致的非特异性扩增。所以,检测引物二聚体对设计和优化引物尤为重要。
[0003]常规检测引物二聚体的软件是根据引物间碱基的互补情况所得出的score或ΔG值大小来判定该引物是否会产生二聚体,因此无论碱基互补的情况是出现在引物的5

端、3

端还是中间部分,只要达到了软件设定的score或ΔG值阈值便会认定为是引物二聚体,从而常常忽视了3

端的引物二聚体才是引起PCR扩增问题的原因所在。因此常规检测引物二聚体软件检测出的引物二聚体结果会不可避免地出现大量的假阳性和假阴性。
[0004]而对于评估引物较为权威的软件oligo 7,该软件不能直接判定输入引物是否会产生引物二聚体,而是给出输入引物可能产生二聚体的所有拓扑结构,以及对应的ΔG值,需要用户自行判断;且该软件不能批量进行引物二聚体的评估,对于需要评估大量引物的研究人员,这无疑大大增加了研究人员的时间成本。
[0005]由此,如何提供一种既能够批量进行引物二聚体评估,同时又能得到准确性较高的引物二聚体检测结果的检测引物二聚体方法成为了业界需要解决的问题。

技术实现思路

[0006]针对现有引物二聚体检测技术的缺点,本专利技术对常规引物二聚体算法进行了升级,其不仅能批量对引物序列进行引物二聚体评估,而且检测到的引物二聚体准确度高,进一步地减少了非特异性扩增的情况发生。
[0007]本专利技术的检测引物二聚体的方法包括以下几个步骤:
[0008]1.构建决策树模型
[0009]决策树模型的制备具体包括,训练集中真实二聚体和非二聚体样本的选取:选取一定数量的真实引物扩增后的二聚体数据作为训练模型的数据集,计算引物5

端的错配数目,3

端错配数目,3'端结合数目和总结合部位的碱基数目,将这四个变量作为响应变量,通过训练集训练以获得所述决策树模型。
[0010]2.决策树模型应用
[0011]两个引物序列作为输入,首先计算两序列间的二聚体结合情况,并进行筛选,如果5

端错配数为0,然后看3

端的结合数目,如果大于等于10个,那就认为是二聚体,如果没有就看总结合数目是否大于等于6,大于等于6的再看3

端结合数目是否大于6,如果大于6,并
且3

错配数目不大于1,则认为是二聚体。3

端结合数目不大于6,并且无错配,则也认为是二聚体。
[0012]所有的引物序列,都会计算自身以及两两之间引物5

端的错配数目,3

端的错配数目,3'端结合数目以及总结合部位的碱基数目,然后将这四个变量带入决策树模型,得出1和0,1表示引物间存在二聚体,0表示引物不存在二聚体。
[0013]与现有技术相比,本专利技术的有益效果是:本专利技术可批量对引物进行二聚体检测,即使是上千条引物序列也可以在较短的时间内检测完成,基于本专利技术检测到的引物二聚体准确性高,有效避免了在PCR扩增过程中引物序列产生二聚体导致的非特异扩增及扩增失败等情况。
附图说明
[0014]图1是决策树模型应用流程图;
[0015]图2是使用决策树模型检测引物二聚体的流程图;
[0016]图3是5款引物二聚体检测软件的测评结果,准确度=真实阳性二聚体个数/所有二聚体个数;敏感度=真实阳性二聚体个数/所有阳性二聚体个数;F值=2*(1/(1/准确度+1/敏感度))。
具体实施方式
[0017]为了加深对本专利技术的理解,下面将结合实施例对本专利技术做进一步详细描述,该实施例仅用于解释本专利技术,并不对保护范围构成限定。所用的仪器设备、耗材和试剂除特别说明以外,均为市售商品化产品。
[0018]实施例1:
[0019]本专利技术使用209条已发表的新冠引物序列作为阴性数据,74条在测序过程中产生真实二聚体序列的引物序列作为阳性数据,对包括本专利技术在内的共5款软件的引物二聚体检测结果进行测评。测评依据为检测结果的准确度、敏感度及F值,其中准确度为真实阳性二聚体结果占所有二聚体结果的比值;敏感度为真实阳性二聚体的结果占所有阳性二聚体结果的比值;F值的公式为2*(1/(1/准确度+1/敏感度))。
[0020]一、使用数据
[0021]①
阴性数据:209条已发表的新冠引物序列。
[0022]表1.阴性数据引物序列
[0023][0024][0025][0026][0027][0028][0029]②
阳性数据:74条在测序过程中产生真实二聚体序列的引物序列。
[0030]表2.阳性数据引物序列
[0031][0032][0033]二、测评软件
[0034]表3.测评使用的引物二聚体软件
[0035][0036][0037]注:“DIMER”为本专利技术的软件
[0038]三、测评结果
[0039]表4.5款引物二聚体检测软件的测评结果(1)
[0040][0041]表5.5款引物二聚体检测软件的测评结果(2)
[0042][0043]5款引物二聚体检测软件的测评结果另见图3。图3中准确度=真实阳性二聚体个数/所有二聚体个数;敏感度=真实阳性二聚体个数/所有阳性二聚体个数;F值=2*(1/(1/准确度+1/敏感度))。
[0044]测评结果显示,本专利技术检测引物二聚体方法的准确度、敏感度以及F值均为最高,明显优于常规的引物二聚体检测软件。
[0045]尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建检测引物二聚体的决策树模型的方法,所述方法包括训练集中真实二聚体和非二聚体样本的选取:选取一定数量的真实引物扩增后的二聚体数据作为训练模型的数据集,计算引物5

端的错配数目,3

端错配数目,3'端结合数目和总结合部位的碱基数目,将这四个变量作为响应变量,通过训练集训练以获得所述决策树模型。2.一种检测引物二聚体的决策树模型,所述决策树模型由权利要求1所述方法构建得到。3.根据权利要求2所述的决策树模型,所述决策树模型为:两个引物序列作为输入,首先计算两序列间的二聚体结合情况,并进行筛选,如果5

端错配数为0,然后看3

端的结合数目,如果大于等于10个,...

【专利技术属性】
技术研发人员:高欢吴骏澜杨宏霞
申请(专利权)人:南京诺唯赞生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1