分子标记指纹数据的比对方法、非暂存态存储介质和装置制造方法及图纸

技术编号:27315382 阅读:63 留言:0更新日期:2021-02-10 09:46
本发明专利技术涉及生物信息学领域,具体涉及分子标记指纹数据的比对方法、非暂存态存储介质和装置。本发明专利技术通过契合分子标记DNA指纹数据特点,先进行位点和基因型分组后再进行统计,构建了一个快速指纹比对方法。这种方法适用于任意标记DNA数据比对业务场景,该算法解决了指纹数据建库和指纹筛查时的快速比对需要,并可结合实际业务需要通过软件程序化实现该方法,其设计思路非常适合计算机的软件编程实现。该方法还可以应用于多线程和分布式指纹比对这类应用程序中,可以非常明显地提升整体计算效率。率。率。

【技术实现步骤摘要】
分子标记指纹数据的比对方法、非暂存态存储介质和装置


[0001]本专利技术涉及生物信息学领域,具体涉及分子标记指纹数据的比对方法、非暂存态存储介质和装置。

技术介绍

[0002]DNA指纹数据库构建过程中,指纹库中所有指纹之间的差异和无差异情况是一个重要的建库质量参数。植物DNA指纹数据建库时,单一品种可能会存在的多个不同年份的标准样品,而确定它们之间的差异情况可以用来确定样品是否被更换或产生变异。在人类DNA建库后,也涉及库内数据的互比筛查,而应用建库时也需要将给定样本指纹与全库进行比对,这些业务场景不可避免的需要用到指纹数据间比对算法来实现。所以如何对标记技术生产的指纹数据进行快速比对成为一个关键性技术。
[0003]目前已有的各种指纹数据库系统中包含的指纹比对功能,大部分均采用循环成对比较的方式。这种方式实际就是对从给定的两个队列中各选取一个指纹,然后执行位点数据比对,这样得到两个指纹间的位点缺失、差异和无差异情况。这种算法实现方式最大优点是实现非常简单,但其随着指纹数据增加将暴露自身的缺陷,使得无法适应大规模的指纹数据应用环境,需要更加快速的比对算法。
[0004]出现上述缺陷最主要的原因在于——进行了过多的无效计算,例如指纹比对后主要关注指纹间的差异性,而采用循环比对算法会导致应用程序必须全部比对完成才能得到差异位点信息。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供了一种分子标记指纹数据的比对方法、非暂存态存储介质和装置。
[0006]具体而言,本专利技术首先提供一种分子标记指纹数据的比对方法,包括:
[0007]设置指纹和位点ID号:为待比指纹列表和对比指纹列表中包含的所有指纹设置ID号,并将ID号同时绑定指纹包含的位点上;
[0008]按照位点分组:分别将待比指纹列表和对比指纹列表中的所有位点过滤出来并按照位点分组后,设置到不同位点分组中的待比指纹ID列表和对比指纹ID列表中;
[0009]按照基因型分组:将每一个位点分组进一步按照基因型分组,得到基因型分组列表;
[0010]按基因型比对:将每个基因型分组中的基因型进行比对,若存在差异则构建差异关联信息对,若无差异则忽略之;将所有位点分组逐一处理后,得到所有的差异基因型关联信息对;
[0011]统计差异信息:以指纹ID为索引,对所得到的差异基因型关联信息对进行统计。
[0012]在指纹间的差异性通常是有限的,另外,因为任意单个标记包含的等位基因也是有限的,所以指纹数据所包含的基因分型也是有限的。这使得本专利技术中的比对方法可以以
更小的时间空间代价提供更快比对速度。
[0013]本专利技术中所述的分子标记包括SSR分子标记、InDel分子标记和SNP分子标记。
[0014]作为优选,在所述按基因型比对中,通过比对字符数据的差异,判断是否存在SNP分子标记的差异位点。
[0015]适用于SNP标记AGCT碱基型数据基因型比对算法只需要判定字符数据是否存在差异,例如A/G与A/T基因型间是存在差异的。
[0016]作为优选,在所述按基因型比对中,通过比对数字格式的基因型,判断是否存在SSR或InDel分子标记的差异位点。
[0017]适用于SSR、InDel标记数字格式的基因型比对,数据比对时通常需要提供一个误差值,以提供自动校正平台误差的功能。
[0018]作为本专利技术的优选方案,数字格式的基因型的具体比对方法如下:
[0019]定义L
x
(a
i
,b
i
)和L
x
(a
j
,b
j
)表示序号x的位点上的两个基因型数据,根据CE平台特性,设置一个碱基偏移量参数offset≤1,并按如下方式计算:
[0020]R1=(|a
i-a
j
|≤offset)
[0021]R2=(|b
i-b
j
|≤offset)
[0022]R3=(|a
i-b
j
|≤offset)
[0023]R4=(|b
i-a
j
|≤offset)
[0024]R=((R1&&R2)||(R3&&R4))
[0025]其中,当R为TRUE值时,判定基因型L
x
(a
i
,b
i
)和L
x
(a
j
,b
j
)之间不存在差异,当R为FALSE值时,判定基因型L
x
(a
i
,b
i
)和L
x
(a
j
,b
j
)之间存在差异位点。
[0026]作为优选,所述统计差异信息具体包括:
[0027]以指纹ID为索引构建一个结果矩阵表,将统计得到的位点差异信息在矩阵表中进行计数;
[0028]将所有差异基因型关联信息对完成统计,得到所有指纹间的差异数信息。
[0029]本领域人员可以对上述优选方案进行组合,得到本专利技术的较佳实施例。
[0030]作为本专利技术的一个优选方案,所述的比对方法具体包括:
[0031]设置指纹和位点ID号:为待比指纹列表G(n,p)和对比指纹列表G(m,p)中包含的所有指纹设置ID号,并将ID号同时绑定指纹包含的位点上;其中n和m表示列表包含的指纹数,p表示列表包含的位点数;
[0032]按照位点分组:将G(n,p)中的所有位点过滤出来并按照位点分组后,设置到L1~L
p
分组中的待比指纹ID列表中;将G(m,p)中的所有位点过滤出来并按照位点分组后,设置到L1~L
p
分组中的对比指纹ID列表中;
[0033]按照基因型分组:从L1~L
p
分组中提取出L
x
分组(1≤x≤p),假设第x位点包含了y个基因型,则将L
x
分组按照基因型分组成L
x
(a1,b1)~L
x
(a
y
,b
y
),其中a1,b1,a
y
,b
y
表示L
x
位点包含的基因;
[0034]按基因型比对:将L
x
的y个基因型分组中的第i和j个分组基因型比对(1≤i≤p,1≤j≤p),若存在差异则构建差异关联信息对,若无差异则忽略之;将p个位点的所有分组逐一循环处理得到所有的差异基因型关联信息对;
[0035]统计差异信息:以指纹ID为索引,对所得到的差异基因型关联信息对进行统计。
[0036]在两个指纹数据进行比对时,定义差异位点数为D,无差异位点数为S,缺失位点数为M本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分子标记指纹数据的比对方法,其特征在于,包括:设置指纹和位点ID号:为待比指纹列表和对比指纹列表中包含的所有指纹设置ID号,并将ID号同时绑定指纹包含的位点上;按照位点分组:分别将待比指纹列表和对比指纹列表中的所有位点过滤出来并按照位点分组后,设置到不同的位点分组中的待比指纹ID列表和对比指纹ID列表中;按照基因型分组:将每一个位点分组进一步按照基因型分组,得到基因型分组列表;按基因型比对:将每个基因型分组中的基因型进行比对,若存在差异则构建差异关联信息对,若无差异则忽略之;将所有位点分组逐一处理后,得到所有的差异基因型关联信息对;统计差异信息:以指纹ID为索引,对所得到的差异基因型关联信息对进行统计。2.根据权利要求1所述的比对方法,其特征在于,所述分子标记包括SSR分子标记、InDel分子标记和SNP分子标记。3.根据权利要求2所述的比对方法,其特征在于,在所述按基因型比对中,通过比对字符数据的差异,判断是否存在SNP分子标记的差异位点。4.根据权利要求2或3所述的比对方法,其特征在于,在所述按基因型比对中,通过比对数字格式的基因型,判断是否存在SSR或InDel分子标记的差异位点。5.根据权利要求4所述的比对方法,其特征在于,数字格式的基因型的具体比对方法如下:定义L
x
(a
i
,b
i
)和L
x
(a
j
,b
j
)表示序号x的位点上的两个基因型数据,根据CE平台特性,设置一个碱基偏移量参数offset≤1,并按如下方式计算:R1=(|a
i-a
j
|≤offset)R2=(|b
i-b...

【专利技术属性】
技术研发人员:王凤格江彬霍永学吴昊天张云龙
申请(专利权)人:北京市农林科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1