探针设计方法及其装置制造方法及图纸

技术编号:37477870 阅读:10 留言:0更新日期:2023-05-07 09:19
本公开提供了用于设计探针的方法及其装置。本公开的设计探针的方法包括:将在基因组上的一个或多个目标区域整理成bed文件;获取每一个目标区域所对应的基因组序列;分别基于基因组和目标区域的序列获得k

【技术实现步骤摘要】
探针设计方法及其装置


[0001]本专利技术涉及分子生物学检测领域,具体涉及一种基于动态选择进行探针设计的装置和方法。

技术介绍

[0002]核酸分子杂交是分子生物学领域常用的基础技术之一。在理想的实验条件下,核酸分子杂交可以改良成非常有效且敏感的用于检测目标分子的手段。比如,经典的PCR方法可以在百万级别的非目标序列背景中扩增出仅有一个拷贝的目标分子序列。
[0003]基因(DNA)芯片是另一种核酸分子杂交技术。由于它能够通过高通量的方式来监控所有基因的表达情况,因此基因芯片在生物学和医学领域迅速流行起来。核酸分子杂交技术的特异性依赖于引物(或探针)与目标片段的杂交结合,非特异性杂交一方面会浪费有效数据量从而增加实验成本,另一方面也会让研究者得出错误的结论。
[0004]因此,基于核酸分子杂交研发的芯片避免非特异性杂交是非常重要的,同时也是最难实现的。为了实现这一目的,已经存在一些对于核苷酸探针设计的参考规则,比如探针长度、GC含量、探针与靶标片段结合稳定性、探针二级结构等。
[0005]人类基因组相当复杂,具有编码功能的区域只占不到2%,其它98%的非编码区存在大量的重复序列,这些非编码区的序列构成简单且在全基因组范围内存在多处拷贝。如果选择的目标区域包含了这些非编码区,则设计出的探针将很难避免非特异性杂交。因此,亟需一种全新的探针设计方法。

技术实现思路

[0006]为了解决现有技术中存在的上述技术问题之一,本公开提供了一种新的探针设计方法,以及实现该方法的装置。
>[0007]根据本公开的一个方面,提供了一种用于设计探针的方法,所述方法包括如下步骤:
[0008](1)将在基因组上的一个或多个目标区域整理成bed文件,每一个目标区域的bed文件包括该目标区域所在的染色体编号、该目标区域的起始位置和该目标区域的终止位置;
[0009](2)获取每一个目标区域所对应的基因组序列;
[0010](3)基于所述基因组的序列获得第一k1‑
mer序列集合并统计所述第一k1‑
mer序列的数目,基于一个或多个所述目标区域的序列获得第二k1‑
mer序列集合,并统计所述第二k1‑
mer序列集合中的各序列在所述基因组上出现的频数,其中k1选自10至20的整数;
[0011](4)基于多个所述目标区域的序列获得k2‑
mer探针集合,其中k2为探针的长度;
[0012](5)计算所述k2‑
mer探针集合中的每一探针的Ud值,并且针对每一目标区域的探针,按照Ud值从大到小进行排序,将Ud值最大的探针确定为该目标区域的目的探针;
[0013](6)重复n次步骤(5),筛选出针对每一目标区域的n个探针;
[0014](7)计算获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合。
[0015]通过本公开的方法,可以设计能捕获目标区域的最优的探针数据集合,最大程度上保证探针的特异性捕获。本公开的上述方法可以对给定的任意大小的目标区域进行探针设计。
[0016]通过本公开的方法获得的探针可用于DNA微阵列(例如基因芯片)的探针设计。
[0017]根据本公开的另一方面,提供了一种DNA微阵列,所述DNA微阵列具有通过本公开的方法获得的探针。
[0018]根据本公开的又一方面,提供了一种设计探针的装置,所述装置包括:bed文件生成单元,用于将在基因组上的一个或多个目标区域整理成bed文件,每一个目标区域的bed文件包括该目标区域所在的染色体编号、该目标区域的起始位置和该目标区域的终止位置;基因组序列获取单元,用于获取每一个目标区域所对应的基因组序列;第一k

mer序列生成单元,用于基于多个所述基因组的序列获得第一k1‑
mer序列集合并统计所述第一k1‑
mer序列集合中的k1‑
mer序列的数目,基于多个所述目标区域的序列获得第二k1‑
mer序列集合并统计所述第二k1‑
mer序列集合中的各k1‑
mer序列在所述基因组上出现的频数,其中k1为10至20的整数;第二k

mer序列生成单元,用于基于多个所述目标区域的序列获得k2‑
mer探针数据集,其中k2为探针的长度;探针筛选单元,用于计算所述k2‑
mer探针数据集合中的每一探针的Ud值,并按照Ud值从大到小,对所述k2‑
mer探针数据集中的针对每一目标区域的探针进行排序,Ud值最大的探针确定为该目标区域的目的探针,重复n次,筛选出针对每一目标区域的n个探针;同源性计算单元,用于计算获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合。
[0019]根据本专利技术的又一方面,提供了一种设备,其包括存储器,用于存储程序;和,处理器,用于通过执行所述存储器存储的程序以实现本公开的方法。
[0020]根据本专利技术的又一方面,提供了一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被执行以实现本公开的方法。
附图说明
[0021]图1示出了根据本公开的一个实施方式探针设计方法的流程图。
[0022]图2示出了根据本公开的一个实施方式的探针设计装置的示意图。
[0023]图3示出了根据本公开的一个实施方式设计的探针的捕获效率的结果。
[0024]图4示出了根据本公开一个实施方式设计的探针的目标区域的覆盖均一性结果。
具体实施方式
[0025]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步的详细说明。此处所描述的具体实施例仅用于解释本专利技术,并不用于构成对本专利技术的任何限制。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。这样的结构和技术在许多出版物中也进行了描述。
[0026]图1示出了本公开的探针设计方法的流程图。
[0027]101.将在基因组上的一个或多个目标区域整理成bed文件,每一个目标区域的bed文件包括该目标区域所在的染色体编号、该目标区域的起始位置和该目标区域的终止位置。
[0028]通过本公开的方法,可以设计能捕获目标区域的最优的探针数据集合,最大程度上保证探针的特异性捕获。本公开的上述方法可以对给定的任意大小的目标区域进行探针设计。
[0029]在一些实施方式中,在步骤(1)中,如果两个目标区域之间的距离≤50bp,则可以将该两个目标区域合并为一个目标区域。
[0030]在一些实施方式中,所述bed文件中的一行为一个目标区域。在本公开的方法中,对于目标区域的数目没有上限控制。
[0031]102.获取每一个目标区域所对应的基因组序列。
[0032]在一些实施方式中,在步骤本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于设计探针的方法,包括如下步骤:(1)将在基因组上的一个或多个目标区域整理成bed文件,每一个目标区域的bed文件包括该目标区域所在的染色体编号、该目标区域的起始位置和该目标区域的终止位置;(2)获取每一个目标区域所对应的基因组序列;(3)基于所述基因组的序列获得第一k1‑
mer序列集合并统计所述第一k1‑
mer序列的数目,基于一个或多个所述目标区域的序列获得第二k1‑
mer序列集合并统计所述第二k1‑
mer序列集合中的各序列在所述基因组上出现的频数,其中k1选自10至20的整数;(4)基于一个或多个所述目标区域的序列获得k2‑
mer探针数据集合,其中k2为探针的长度;(5)计算所述k2‑
mer探针数据集合中的每一探针的Ud值,并且针对每一目标区域的探针,按照Ud值从大到小进行排序,将Ud值最大的探针确定为该目标区域的目的探针;(6)重复n次步骤(5),筛选出针对每一目标区域的n个探针;(7)计算获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合。2.根据权利要求1所述的方法,其特征在于,在步骤(1)中,如果两个目标区域之间的距离≤50bp,则将该两个目标区域合并为一个目标区域。3.根据权利要求1所述的方法,其特征在于,在步骤(2)中,从基因组文件获取每一个目标区域两侧各延伸10至30bp所对应的基因组序列,优选地,从基因组文件获取每一个目标区域两侧各延伸20bp所对应的基因组序列。4.根据权利要求1所述的方法,其特征在于,在步骤(3)中,将所述第一k1‑
mer序列集合和所述第二k1‑
mer序列集合的信息保存到字典中,优选地,将所述第一k1‑
mer序列集合和所述第二k1‑
mer序列集合的信息保存到二进制文件中;优选地,k1选自10至20的整数,更优选地,k1为15。5.根据权利要求1所述的方法,其特征在于,在步骤(4)中,遍历一个或多个所述目标区域的序列,按照1bp的步长打成指定的探针长度,优选地,所述探针的长度在25至200nt的范围内,和/或优选地,每一个所述目标区域获得含多个探针的数据集合。6.根据权利要求1所述的方法,其特征在于,在步骤(5)中,遍历所述k2‑
mer探针数据集合中的探针集合,获得第三k1‑
mer序列集合,优选地,所述Ud值=探针特异性k1‑
mer序列的数量/探针长度。7.根据权利要求1所述的方法,其特征在于,步骤(5)还包括计算每一探针的Ua、发夹结构、二聚体和/或GC55的数值,并且针对每一目标区域的探针,按照Ud值从大到小、Ua值从小到大、发夹结构值从小到大和/或二聚体值从小到大进行排序,选择排名第一位的探针作为目的探针;优选地,使用平均绝对误差模型来计算每一探针的Ua值,更优选地,每一探针的Ua值可以通过以下步骤来获得:a)计算出特异性k2‑
mer序列在该探针上均匀分布时的理论间隔距离;b)计算k2‑
mer序列在该探针上的实际间隔距离;c)计算所述实际间隔距离和所述理论间隔距离的平均绝对误差;d)将步骤c)得到的平均绝对误差除以该探针长度,即为Ua值。
8.根据权利要求1所述的方法,其特征在于,在步骤(6)中,针对每一目标区域的n个探针中,两个位置相邻的探针的末端彼此重叠,优选地重叠5~20bp。9.根据权利要求1所述的方法,其特征在于,在步骤(7)中,计算步骤(5)和步骤(6)获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合。10.根据权利要求1所述的方法,其特征在于,在步骤(7)之前或者之后,所述方法还包括以下步骤:将步骤(5)和步骤(6)获得的探针的序列与基因组上的非目标区域的序列进行对比,当探针的序列与所述非目标区域的序列不存在连续15个或更多核苷酸的相同序列,则保留该探针。11.一种DNA微阵列,其特征在于,所述DNA微阵列具有通过权利要求1至10中任一项所述的方法获得的探针。12.一种用于设计探针的装置,其特征在于,所述装置包括:bed文件生成单元,用于将在基因组上的一个或多个目标区域整理成bed文件,每一个目标区域的bed文件包括该目标区域所在的染色体编号、该目标区域的起始位置和该目标区域的终...

【专利技术属性】
技术研发人员:任重敢吴德伦李自昕卢昊
申请(专利权)人:长沙吉因加医学检验实验室有限公司北京吉因加医学检验实验室有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1