目标区域捕获探针及其设计方法技术

技术编号:15550111 阅读:357 留言:0更新日期:2017-06-07 15:13
本发明专利技术公开了一种目标区域捕获探针及其设计方法。其中,该设计方法包括以下步骤:S1,根据目标序列在基因组上的位置范围确定基因组待测区域;S2,选用标记程度不同的重复序列标记软件对基因组待测区域内的重复区域的进行标记;以及S3,探针设计。应用本发明专利技术的技术方案,一方面,能够保证捕获效率和覆盖度之间的平衡,相比于现有技术,内含子区域覆盖度较高,有利于DNA水平上基因融合的检出;另一方面,现有提供探针服务的公司,既提供探针设计服务,又提供合成服务,但价格昂贵,且不提供给客户探针序列,利用该技术能够实现探针的自主设计,一定程度上实现了流程地自主控制,节约了成本。

Target region capture probe and design method thereof

The invention discloses a target area capture probe and a design method thereof. Among them, the design method includes the following steps: S1, the measured area is determined according to the genomic position range of the target sequence in the genome; S2, selected sequence repeat markers on different software to mark genomic region of the repeated measurement; and S3, probe design. The technology scheme, the application of the invention, can guarantee the capture efficiency and the balance between coverage, compared with the prior art, the intron region coverage is high, is conducive to the level of DNA fusion gene detection; on the other hand, the company's existing services provide not only provide probe, probe design services, and provide the synthesis service, but the price is expensive, and does not provide independent probe sequence, designed by this technology can realize the probe, to a certain extent to achieve the process control, cost savings.

【技术实现步骤摘要】
目标区域捕获探针及其设计方法
本专利技术涉及生物
,具体而言,涉及一种目标区域捕获探针及其设计方法。
技术介绍
目标序列捕获测序是将感兴趣的基因组区域定制成特异性探针与基因组DNA在序列捕获芯片(或溶液)进行杂交,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。目标序列捕获测序是目前基因组学研究中的一个热点技术,主要原因是该技术消耗少量的成本和时间。在相同成本下,研究者可以研究到更多的样本数量和测到更深的深度。作为一个强大、有效的技术,它在新一代高通量测序中发挥独特之处,应用领域越来越广泛。根据杂交时状态不同,目标序列捕获可以分为固相杂交法和液相杂交法。液相杂交和固相杂交最大的差异在于杂交反应的环境不同。其中,液相杂交是通过在溶液中,目标DNA片段和已带有生物素标记探针直接杂交,然后通过生物素亲和素的反应使目标DNA片段锚定在带有亲和素的微珠上。洗去非目标DNA,洗脱后,富集的DNA用于测序。液相杂交与固相杂交相比有两大优势:1)杂交效率更高;2)易于操作,时间短,便于自动化操作。安捷伦(Agilent)公司推出的SureSelect目标序列捕获系统是液相杂交的典型产品。在杂交过程中,探针的设计是完成杂交捕获的首要任务。为某个靶标所设计的探针,其必须尽可能多的和样本中的靶标相结合,而与样本中的非靶标尽可能少的结合,即探针的灵敏性(sensitivity)和特异性(specificity)要求。影响探针灵敏性的主要因素包括探针的Tm、探针长度、GC含量和探针的二级结构,交叉杂交、复杂度、探针方向和探针数量是影响探针特异性的四大要素。在进行探针设计过程中,为保证探针的捕获效率和均一性等要求,需综合考虑上述因素。目前,以人类为例,涉及捕获探针主要采用以下方法:查找目的序列在人类基因组上的位置,然后对人类基因组进行重复序列的标记,根据标记程度不同,选择合适区域进行探针设计,每个区域的探针之间的步长为40bp。采用这种方法,能够满足捕获效率的要求,但部分内含子覆盖度无法达到要求,进而会影响DNA测序中基因融合的检测。
技术实现思路
本专利技术旨在提供一种目标区域捕获探针及其设计方法,以解决现有技术中捕获探针覆盖度无法达到要求的技术问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种目标区域捕获探针的设计方法。该设计方法包括以下步骤:S1,根据目标序列在基因组上的位置范围确定基因组待测区域;S2,选用标记程度不同的重复序列标记软件对基因组待测区域内的重复区域的进行标记,具体包括:S21,选用第一重复序列标记软件对基因组待测区域内的重复区域的进行标记,得到最严格标记文件A;以及S22,选用第一重复序列标记软件和其它两种重复序列标记软件共同对基因组待测区域内的重复区域的进行标记,得到最不严格标记文件B,其中,只对第一重复序列标记软件和其它两种重复序列标记软件均有重复序列标记的区域进行标记;以及S3,探针设计,具体包括:S31,以最严格标记文件A为基准,获得未被标记的区域位置并在该区域位置上设计探针;S32,以最不严格标记文件B为基准,获得S31中探针未覆盖的长度大于等于100bp的未被标记的区域位置并在该区域位置上设计探针。进一步地,当目标序列为蛋白质编码基因时,编码序列即为目标区域;当目标序列为非编码蛋白质的序列时,但其存在外显子时,外显子即为目标区域。进一步地,S1通过整合Ensembl、CCDS、RefSeq、Gencode和VEGA5个数据库的数据确定目标序列在基因组上的位置范围。进一步地,S2包括:S21,选用RepeatMasker软件对基因组待测区域内的重复区域的进行标记,得到最严格标记文件A;以及S22,选用RepeatMasker软件、WindowMasker软件和Uniqueness35track软件共同对基因组待测区域内的重复区域的进行标记,得到最不严格标记文件B。进一步地,S2具体包括:S21,选用RepeatMasker软件配合TandemRepeatFinder软件对基因组待测区域内的重复区域的进行标记,重复区域以小写字母表示,非重复区域序列以大写字母表示,得到最严格标记文件A;以及S22,选用RepeatMasker软件、WindowMasker软件和Uniqueness35track软件对基因组待测区域内的重复区域的进行标记,上述三种软件均有重复序列标记的区域以小写字母表示,其他区域序列以大写字母表示,得到最不严格标记文件B。进一步地,最严格标记文件A为从UCSC网站下载的被标记的基因组文件。进一步地,S3具体包括:S31,基于最严格标记文件A,获得基因组待测区域中的非重复区域,该区域+/-10bp,得到第一新区域,然后基于该第一新区域进行探针集合的寻找,从第一新区域的上游依次以1bp的步长作为第一条探针的起始位置,探针长度为120bp,探针与探针之间的步长为40bp,最后一条探针的末端在第一新区域的右端,同时保证探针集合中探针数量最少原则,得到第一新区域的所有探针集合,计算每个探针集合的得分,选择其中得分最高的集合作为第一新区域的探针,将上述探针所覆盖的区域合并,利用基因组待测区域和上述探针覆盖区域,取得已设计探针未覆盖的位点;S32,基于最不严格标记文件B,获得已设计探针未覆盖区域中长度≥100bp的非重复区域,该区域+/-10bp,得到第二新区域,然后基于第二新区域进行探针集合的寻找,从第二新区域的上游依次以1bp的步长作为第一条探针的起始位置,探针长度为120bp,探针与探针之间的步长为40bp,最后一条探针的末端在第二新区域的右端,同时保证探针集合中探针数量最少原则,得到第二新区域的所有探针集合,计算每个探针集合的得分,选择其中得分最高的集合作为第二新区域的探针;将S31和S32中获得的探针集合合并,即为最终的探针序列。进一步地,每个探针集合的得分为每条探针得分的总和,每条探针按照公式3计算得分数值,公式3为:分数=0.4×Tm+0.3×特异度+0.2×GC+0.1×复杂度。进一步地,特异度为探针与基因组比对之后,统计其中比对长度大于20bp的非目的区域的数量,该数量的数值取负值,即为是特异度。根据本专利技术的另一个方面,提供了一种目标区域捕获探针。该目标区域捕获探针由上述任一种设计方法设计后合成得到。应用本专利技术的技术方案,一方面,能够保证捕获效率和覆盖度之间的平衡,相比于现有技术,内含子区域覆盖度较高,有利于DNA水平上基因融合的检出;另一方面,现有提供探针服务的公司,既提供探针设计服务,又提供合成服务,但价格昂贵,且不提供给客户探针序列,利用该技术能够实现探针的自主设计,一定程度上实现了流程地自主控制,节约了成本。附图说明构成本申请的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了根据本专利技术实施例1的捕获探针的设计流程示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。在本专利技术中没有详细写明的技术手段可以采用本领域的常规技术手段实现。下面将参考附图并结合实施例来详细说明本专利技术。根据本专利技术一种典型的实本文档来自技高网
...
目标区域捕获探针及其设计方法

【技术保护点】
一种目标区域捕获探针的设计方法,其特征在于,包括以下步骤:S1,根据目标序列在基因组上的位置范围确定基因组待测区域;S2,选用标记程度不同的重复序列标记软件对所述基因组待测区域内的重复区域的进行标记,具体包括:S21,选用第一重复序列标记软件对所述基因组待测区域内的重复区域的进行标记,得到最严格标记文件A;以及S22,选用所述第一重复序列标记软件和其它两种重复序列标记软件共同对所述基因组待测区域内的重复区域的进行标记,得到最不严格标记文件B,其中,只对所述第一重复序列标记软件和其它两种重复序列标记软件均有重复序列标记的区域进行标记;以及S3,探针设计,具体包括:S31,以所述最严格标记文件A为基准,获得未被标记的区域位置并在该区域位置上设计探针;S32,以所述最不严格标记文件B为基准,获得所述S31中探针未覆盖的长度大于等于100bp的未被标记的区域位置并在该区域位置上设计探针。

【技术特征摘要】
1.一种目标区域捕获探针的设计方法,其特征在于,包括以下步骤:S1,根据目标序列在基因组上的位置范围确定基因组待测区域;S2,选用标记程度不同的重复序列标记软件对所述基因组待测区域内的重复区域的进行标记,具体包括:S21,选用第一重复序列标记软件对所述基因组待测区域内的重复区域的进行标记,得到最严格标记文件A;以及S22,选用所述第一重复序列标记软件和其它两种重复序列标记软件共同对所述基因组待测区域内的重复区域的进行标记,得到最不严格标记文件B,其中,只对所述第一重复序列标记软件和其它两种重复序列标记软件均有重复序列标记的区域进行标记;以及S3,探针设计,具体包括:S31,以所述最严格标记文件A为基准,获得未被标记的区域位置并在该区域位置上设计探针;S32,以所述最不严格标记文件B为基准,获得所述S31中探针未覆盖的长度大于等于100bp的未被标记的区域位置并在该区域位置上设计探针。2.根据权利要求1所述的设计方法,其特征在于,当所述目标序列为蛋白质编码基因时,编码序列即为所述目标区域;当所述目标序列为非编码蛋白质的序列时,但其存在外显子时,所述外显子即为所述目标区域。3.根据权利要求1所述的设计方法,其特征在于,所述S1通过整合Ensembl、CCDS、RefSeq、Gencode和VEGA5个数据库的数据确定所述目标序列在基因组上的位置范围。4.根据权利要求1所述的设计方法,其特征在于,所述S2包括:S21,选用RepeatMasker软件对所述基因组待测区域内的重复区域的进行标记,得到所述最严格标记文件A;以及S22,选用RepeatMasker软件、WindowMasker软件和Uniqueness35track软件共同对所述基因组待测区域内的重复区域的进行标记,得到所述最不严格标记文件B。5.根据权利要求4所述的设计方法,其特征在于,所述S2具体包括:S21,选用RepeatMasker软件配合TandemRepeatFinder软件对所述基因组待测区域内的重复区域的进行标记,重复区域以小写字母表示,非重复区域序列以大写字母表示,得到所述最严格标记文件A;以及S22,选用RepeatMasker软件、WindowMasker软件和Uniquene...

【专利技术属性】
技术研发人员:高连菊梁永蒋智陈詹妮石宇鹏臧晚春
申请(专利权)人:北京诺禾致源科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1