【技术实现步骤摘要】
一种短串联重复序列重复数的检测和分型方法
[0001]本专利技术属于生信分析领域,具体涉及一种短串联重复序列重复数的检测和分型方法。
技术介绍
[0002]短串联重复序列(short tandem repeat,STR),也称做微卫星DNA(micrositellite DNA),是由2~6个碱基作为核心串联合成的DNA序列,STR具有变异率高,多态性,易检测等特点,因此广泛地应用与法医相关的检测。从1985年开始,STR检测就已经被应用到法医领域,通常是通过毛细管电泳配合荧光标记来检测。针对不同的STR位点进行特异性引物设计,通过扩增获得不同长度和不同的荧光标记的扩增产物,通过毛细管电泳区分不同的STR位点。
[0003]然而,这种基于毛细管电泳检测的方法通量有限,且无法有效区分长度超过1,000bp的片段。此外,使用的荧光通道的颜色一般不超过6种,否则也会导致不同波长荧光的渗漏问题。因此,基于毛细管电泳检测的STR的数量一般不超过60个。随着高通量测序的发展,越来越多的研究开始转向使用高通量测序来检测和识别STR ...
【技术保护点】
【技术特征摘要】
1.一种基于二代测序的STR侧翼序列搜索比对方法,其特征在于,包括如下步骤:步骤1)原始数据处理步骤:将fastq文件和STR参考序列库进行比对;步骤2)比对算法构建步骤:a、已知左侧侧翼序列flank_left、右侧侧翼序列flank_right和待分析序列S1,将flank_left、flank_right按顺序拼接成序列S2;b、初始化得分矩阵:以S1为列、S2为行构建得分矩阵,设置第1列惩罚得分都为0;设置第1行S2中左右侧翼序列拼接处的两个位置惩罚得分分别为
‑
10,其余位置惩罚得分为
‑
1;c、填充得分矩阵:设置匹配得分match_score=1,错配得分mismatch_score=
‑
1,gap得分gap_score=
‑
2;对于矩阵中每个单元格(i,j),其中的i代表矩阵行的索引,j代表矩阵列的索引,得分计算公式为:若j≠x且j≠y:F_ij=max(F_(i
‑
1,j
‑
1)+S(A_i,B_j),F_(i,j
‑
1)+d,F_(i
‑
1,j)+d);若j=x:F_ij=max(F_(i
‑
1,j
‑
1)+2S(A_i,B_j),F_(i,j
‑
1)+0,F_(i
‑
1,j)+2
×
d);若j=y:F_ij=max(F_(i
‑
1,j
‑
1)+2S(A_i,B_j),F_(i,j
‑
1)+2
×
d,F_(i
‑
1,j)+0);其中x是flank_left的长度,y为x+1,d=gap_score,S(A_i,B_j)=match_score或者mismatch_score;步骤3)STR位点重复区域锚定:读取步骤1)比对到的每条read,根据是否能够比对上STR参考序列分为两种情况:若比对上STR位点,则使用该STR位点的侧翼序列和上述比对算法搜索STR重复区域;若未比对上任何STR位点,则遍历所有STR位点的侧翼序列,并且使用上述比对算法搜索STR重复区域;若侧翼序列比对的结果总共不超过2个错配、插入和缺失,则输出比对上的STR位点以及重复区域序列,否则舍弃这条read;最终获得每条read锚定的重复区域序列长度。2.权利要求1所述的基于二代测序的STR侧翼序列搜索比对方法,其特征在于,所述方法进一步包括:步骤4):根据每条read锚定的重复区域序列长度,计算每条read比对上的STR位点的重复数。3.权利要求1
‑
2任一所述的基于二代测序的STR侧翼序列搜索比对方法,其特征在于,所述步骤2)进一步包括:d、获取重复区域序列:在矩阵中最后一列由下往上选取该列第一个最大分值s作为侧翼序列的比对得分,假设序列S2的长度为n,若n
...
【专利技术属性】
技术研发人员:李梦,郭茂平,胡欢,陈初光,
申请(专利权)人:北京阅微基因技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。