一种基于最大带边权重团的二代STR/SNP引物设计方法和系统技术方案

技术编号:34961473 阅读:30 留言:0更新日期:2022-09-17 12:41
本申请涉及生物信息学分析领域,具体提供一种基于最大带边权重团的二代STR/SNP引物设计方法和系统,该方法能够针对STR和SNP各自特点,把引物设计转换为求解MEWCP的问题,从而同时设计一组包含SNP和STR的引物,在法医鉴定中具有避免漏检以及更适用于降解检材和短序列测序等优势。测序等优势。测序等优势。

【技术实现步骤摘要】
一种基于最大带边权重团的二代STR/SNP引物设计方法和系统


[0001]本申请涉及生信分析
,具体涉及一种基于最大带边权重团的二代STR和SNP引物设计方法及系统。
技术背景
[0002]短串联重复序列(Short Tandem Repeat,STR)也称做微卫星DNA(micrositellite DNA),是由2

6个碱基作为核心串联合成的DNA序列,STR具有变异率高,多态性,易检测等特点,因此广泛的应用与法医相关领域的检测。
[0003]从1985年开始,STR就已经被应用到法医领域。检测的方法通常是通过毛细管电泳配合荧光标记来达到较高的通量。不同的STR位点被设计成有不同产物长度或者不同的荧光标记,这样就可以区分不同的STR位点。然而毛细管电泳的通量有限,毛细管电泳通常无法区分长度超过1,000bp的片段,而且荧光的颜色超过6种也将变得非常的难以区分,因此毛细管电泳识别的STR的数量一般不超过60个。另一方面,毛细管电泳识别STR依靠ladder和bin,如果新分型不在bin内,则其不能够对STR进行准确的识别。随着高通量测序的发展,越来越多的研究开始转向使用高通量测序来识别STR或者其他标记物。二代测序具有通量大、检测位点多、能够得到STR重复区域序列、不依赖bin值等优点,而且大量的位点也可以用来做亲缘推断。例如近年美国破获的金州杀人案就是应用亲缘推断找到的犯罪嫌疑人的亲属从而确定犯罪嫌疑人。
[0004]然而设计二代测序STR引物有难点需要克服。目前市场上主流的Illumian的测序长度不超过300bp,而最常用的长度为150bp。个别STR位点重复区域的长度可以接近200bp左右,如果进一步考虑人群中的多种分型,则不难看出二代STR很容易出现漏检的问题。同时,STR引物的设计要考虑SNP、引物二聚体、特异性等因素。相比于一代测序,STR对引物二聚体的容忍性更小,这些因素如果都通过人为考虑,很难设计出来一组高效的引物。
[0005]另一方面,目前针对SNP的多重引物设计主要基于的最大团(MCP)算法,但是该算法只能够得到一组合格的引物而不是寻找最优的引物。在法医中,SNP引物的扩增子要尽可能的短,以更加适合降解检材和短序列测序。
[0006]鉴于此,提出本申请。

技术实现思路

[0007]本申请要解决的核心技术问题是寻求一种适于二代测序的,基于最大带边权重团的二代STR和SNP引物设计方法和系统。
[0008]为解决上述技术问题,本申请提出一种基于带边权重最大团的自动设计引物流程的算法逻辑,通过把引物距离STR重复区域的最小值、温度、长度等特征融入到边的权重中,用来自动化设计较优的STR引物。同时,本申请把针对SNP的引物设计问题转换为最大带边权重团(MEWCP),通过把引物的扩增子大小、温度、长度等特征融入到边的权重中,从而在优
化过程中寻找最优引物。
[0009]具体的,本申请提出如下技术方案:
[0010]本申请首先提供一种基于最大带边权重团的二代STR/SNP引物设计方法,所述方法包括:
[0011]1)获取初始引物集,针对每一个STR/SNP位点获得所有可能的引物:
[0012]2)引物初筛过滤,对得到初始引物集,根据GC含量、二聚体和/或Tm值进行引物初筛过滤;
[0013]3)引物特异性检查,对非特异性引物进行删除或标记;
[0014]4)构建引物间兼容性关系并计算边权重:
[0015]确定任意两两引物间是否兼容,同一STR/SNP位点同一侧引物须互不兼容;将每一个STR/SNP位点的每一个引物作为一个顶点,引物间若兼容则连线成边,引物间互不兼容则不构成边;对每条边赋予权重值;
[0016]基于上述点和边的关系以及权重值,建立引物设计和MEWCP之间的关系;
[0017]5)选取最优引物,针对步骤4的引物设计和MEWCP之间的关系,获取引物最优组合。
[0018]进一步的,所述步骤1)中,所述获得为:
[0019]根据STR/SNP位点位置信息,在其上下游500bp序列上,以19

33bp为滑动窗口,以1

5个碱基为单位滑动,得到STR/SNP位点的正反向引物集合。
[0020]进一步的,所述步骤2)中,所述初筛条件包括如下任一或多个:
[0021]a、引物GC含量为20%

80%;
[0022]b、引物没有二聚体及发卡结构;
[0023]c、引物中不存在SNP位点;
[0024]d、引物Tm值范围54

60℃,任意两引物间温度最大差异为2℃。
[0025]进一步的,所述步骤3)中,所述特异性检查包括如下任一或多个:
[0026]a、位点内部引物的特异性检查:若位点1中某对引物能够扩增出非特异区域,则删除位点1中的此对引物;
[0027]b、位点间引物的特异性检查:若位点1中的某引物与位点2中的某引物能够扩增出非特异区域,不删除该2个引物,将其分别标记。
[0028]进一步的,所述步骤4)中,所述兼容包括如下任一或多个:
[0029]a、引物之间TM值温度兼容,
[0030]b、引物之间不能形成二级结构,
[0031]c、引物之间不产生非特异性扩增,
[0032]进一步的,所述步骤4)中,所述权重包括:两端引物最小距离权重、温度权重、扩增子大小权重和引物长度权重;
[0033]所述两端引物最小距离为引物到STR重复区域另一端的最小距离,当同一位点左右两侧引物兼容时,选取此对引物中最小距离计算距离权重;优选的,距离越小权重越大;
[0034]所述温度权重为两个引物的TM值的权重;优选的,TM值越接近60℃权重越大;
[0035]所述扩增子大小权重为SNP的扩增片段大小的权重;优选的,片段越小权重越大;
[0036]所述引物长度权重为引物序列长度的权重;优选的,长度越接近24个碱基,权重越大。
[0037]进一步的,所述权重值的具体设定如下:
[0038]a、STR/SNP不同位点间的引物兼容,则将其边的权重设置为1;
[0039]b、STR/SNP同一位点左右两侧兼容引物的边的权重计算如下:
[0040]STR同一位点左右两侧兼容引物的边的权重的计算的优先级为:两端引物最小距离权重>温度权重>引物长度权重;
[0041]SNP同一位点左右两侧兼容引物的边的权重的计算的优先级为:扩增子大小权重>温度权重>引物长度权重;
[0042]进一步优选的:
[0043]所述STR/SNP同一位点左右两侧兼容的引物的边权重的计算的公式分别如下:
[0044]STR权重=两端引物最小距离权重
×
10000+温度权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最大带边权重团的二代STR/SNP引物设计方法,其特征在于,所述方法包括:1)获取初始引物集,针对每一个STR/SNP位点获得所有可能引物:2)引物初筛过滤,对得到初始引物集,根据GC含量、二聚体和/或Tm值进行引物初筛过滤;3)引物特异性检查,对非特异性引物进行删除或标记;4)构建引物间兼容性关系并计算边权重:确定任意两两引物间是否兼容,同一STR/SNP位点同一侧引物须互不兼容;将每一个STR/SNP位点的每一个引物作为一个顶点,引物间若兼容则连线成边,不兼容则不构成边;对每条边赋予权重值;基于上述点和边的关系以及权重值,建立引物设计和MEWCP之间的关系;5)选取最优引物,针对步骤4的引物设计和MEWCP之间关系,获取引物最优组合。2.根据权利要求1所述的引物设计方法,其特征在于,所述步骤1)中,所述获得为:根据STR/SNP位点位置信息,在其上下游500bp序列中,以19

33bp为滑动窗口,以1

5个碱基为单位滑动,得到STR/SNP位点的正反向引物集合。3.根据权利要求1所述的引物设计方法,其特征在于,所述步骤2)中,所述初筛条件包括如下任一或多个:a、引物GC含量为20%

80%;b、引物没有二聚体及发卡结构;c、引物中不存在SNP位点;d、引物Tm值范围54

60℃,任意两引物间温度最大差异为2℃。4.根据权利要求1所述的引物设计方法,其特征在于,所述步骤3)中,所述特异性检查包括如下任一或多个:a、位点内部引物的特异性检查:若位点1中某对引物能够扩增出非特异区域,则删除位点1中的此对引物;b、位点间引物的特异性检查:若位点1中的某引物与位点2中的某引物能够扩增出非特异区域,不删除该2个引物,将其分别标记。5.根据权利要求1所述的引物设计方法,其特征在于,所述步骤4)中,所述兼容包括如下任一或多个:a、引物之间TM值温度兼容,b、引物之间不能形成二级结构,c、引物之间不产生非特异性扩增。6.根据权利要求1所述的引物设计方法,其特征在于,所述步骤4)中,所述权重包括:两端引物最小距离权重...

【专利技术属性】
技术研发人员:李梦黄舒郑立胡欢陈初光
申请(专利权)人:北京阅微基因技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1