当前位置: 首页 > 专利查询>中南大学专利>正文

一种CRISPR诱导RNA文库设计方法技术

技术编号:22296998 阅读:17 留言:0更新日期:2019-10-15 05:52
本发明专利技术公开了一种CRISPR诱导RNA文库设计方法,包括以下步骤:步骤一、根据参考基因组生成kmer集合;步骤二、将kmer切分成kmer1和kmer2两部分,将对应的kmer1相同的kmer2分成一个类别;再将同一类别的kmer2构建到同一个检索树中,各检索树的键序列为其中kmer2对应的kmer1;步骤三、并行获取诱导RNA及其脱靶序列,该步骤中,在比对一个kmer与检索树的键序列和其中的kme2连接成的kmer时,首先将该kmer的kmer1与检索树的键序列比对,看是否满足设定条件,满足则继续比对kmer的kmer2与检索树中的kmer2。本发明专利技术提高了计算效率。

A Design Method of CRISPR Induced RNA Library

【技术实现步骤摘要】
一种CRISPR诱导RNA文库设计方法
本专利技术属于功能基因组学领域,具体涉及一种CRISPR诱导RNA文库设计方法。
技术介绍
在当前一代的基因组编辑技术中,CRISPR系统(Clusteredregularlyinterspacedshortpalindromicrepeats成簇的规律间隔的短回文重复序列)与Cas9核酸酶(与CRISPR关联的RNA引导核酸酶9)的技术研究发展最快,其可以很容易地靶向几乎任何基因组位置,为基因工程的创新发展迈出了一大步。来自CRISPR系统的Cas9蛋白通过利用诱导RNA(guideRNA,gRNA,也称为向导RNA)与DNA靶序列碱基互补配对的特点将诱导RNA与蛋白的复合体定位到DNA靶序列。与目标位置下游的原间隔相邻基序(PAM)的结合有助于指导Cas9切割DNA双链,PAM是Cas9核酸酶切割DNA双链所必需的。其中诱导RNA是CRISPR-Cas系统的关键构件,由不变部分和可变部分组成,可变部分是与DNA靶序列互补的部分,可以通过人工设计可变部分实现诱导RNA与DNA不同位点的结合。CRISPR诱导RNA文库对于基因组编辑系统至关重要。随着基因组测序技术的进步,诱导RNA文库的设计对于理解基因组功能变得越来越重要。目前已经开发了许多诱导RNA设计工具,例如CRISPRDesign,Cas-OFFinder,CRISPRscan和E-CRISP,用于基因组编辑。然而,这些工具返回了独特但有重叠的诱导RNA集合,还忽略了全基因组非编码区,而且使用第三方比对工具进行脱靶序列搜索。最近,GuideScan软件改进了CRISPER诱导RNA数据库的构建。GuideScan是一个开源系统,可以从任何基因组或CRISPR核酸内切酶设计更多合成或完全定制的诱导RNA文库。此外,GuideScan软件还可以构建单引物RNA和双引物RNA数据库,且能够获得相当多的具有多个完美目标位点的诱导RNA。因此,GuideScan获得的诱导RNA比其他工具平均获得的诱导RNA具有更高的特异性。然而,GuideScan的计算成本比较高,尤其当计算诱导RNA的脱靶序列(与诱导RNA错配数不小于参数M且不大于参数Q,Q>M)时,GuideScan的计算成本非常高。因此,将GuideScan应用于大型基因组是不切实际的。随着越来越多的真核基因组被测序或重新测序,需要更有效的工具来加速CRISPR诱导RNA文库的设计。
技术实现思路
本专利技术的目的是提供一种CRISPR诱导RNA文库设计方法,有效降低设计CRISPR诱导RNA文库的计算时间开销。一种CRISPR诱导RNA文库设计方法,包括以下步骤:步骤一、在参考基因组中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer,构成kmer集合,即可靶向的基因组空间;步骤二、对kmer集合中的每一个kmer,将其切分成kmer1和kmer2两部分,其中kmer1为其前n个碱基组成的序列,将对应的kmer1相同的kmer2分成一个类别,将一个类别的kmer2对应的kmer1作为该类别kmer2的键序列;再将同一类别的kmer2构建到同一个检索树(字典树)中,由此多个检索树(数据任务分成一系列的小任务),每个检索树的键序列为相应类别的kmer2的键序列;对kmer集合中的每一个kmer,若其以非标准PAM为前缀或后缀,或其在参考基因组中的出现次数大于1,或存在与其汉明距离小于M的kmer,则其为非诱导RNA,否则为诱导RNA;步骤三、将所有的诱导RNA按照kmer1分类,对所有类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer;其中,对一个类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer的方法具体为:首先计算该类别诱导RNA的kmer1与各个检索树的键序列的汉明距离,找出键序列与该类别候选诱导RNA的kmer1的汉明距离不大于Q的检索树;然后,针对该类别的每一个候选诱导RNA,分别在找出的检索树中,搜索与该候选诱导RNA的kmer2的汉明距离不大于Q-m的kmer2;将这些kmer2分别与它们所在的检索树的键序列连接在一起构成多条kmer,参考基因组中与这些kmer互补配对的序列即为该诱导RNA的脱靶序列(参考基因组中的DNA序列为双链结构,其一条链上的碱基与另一条链上相应位置的碱基互补配对,若一条链上的kmer序列与诱导RNA的汉明距离不小于M且不大于Q,则另一条链上相应位置的kmer序列与诱导RNA的错配数不小于M且不大于Q,是诱导RNA的脱靶序列;在步骤一中记录扫描出的kmer在参考基因组的DNA序列上的坐标;在此步骤中,搜索出满足条件的kmer后,根据其在DNA序列上的坐标,可以快速在DNA序列上找到与之位置相应的kmer序列,即与之互补配对的kmer序列);由此获得的诱导RNA及其脱靶序列信息即CRISPR诱导RNA文库。上述步骤采用了数据预处理优化算法,由于每个类别的诱导RNA的kmer1都相同,每个检索树中kmer2的键序列也都相同,先将诱导RNA分类,再比对一个类别诱导RNA的kmer1与检索树的键序列,大大减少了诱导RNA都与kmer比对的计算量和时间开销,避免了每个诱导RNA与每个kmer一一进行全序列比对。且当某个类别诱导RNA的kmer1与某个检索树键序列的汉明距离m大于Q时,该类别诱导RNA的kmer2将不需要再与该检索树中的kmer2进行比对,再次减少了计算量和时间开销。进一步地,所述步骤一中,并行在参考基因组的多个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer。进一步地,将在参考基因组的多个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer作为一个总任务,将其划分为多个子任务,每个子任务即在参考基因组的一个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer;采用python的多进程模块中的进程和队列方法模拟进程池功能,并行执行多个子任务。进一步地,所述步骤二中,并行将多个类别的kmer2分别构建到多个检索树中。进一步地,把将多个类别的kmer2分别构建到多个检索树中作为一个总任务,将其划分为多个子任务,每个子任务即将一个类别的kmer2构建到一个检索树中;采用python的多进程模块中的进程和队列方法模拟进程池功能,并行执行多个子任务。进一步地,所述步骤二中,并行遍历所有检索树,判断其中每一个kmer2与其所在的检索树的键序列连接成的kmer在参考基因组中的出现次数是否大于1。进一步地,将遍历所有检索树,判断其中每一个kmer2与其所在的检索树的键序列连接成的kmer在参考基因组中的出现次数是否大于1作为一个总任务,将其划分为多个子任务,每个子任务即遍历一个检索树,判断其中每一个kmer2与其所在的检索树的键序列连接成的kmer在参考基因组中的出现次数是否大于1;采用python的多进程模块中的进程和队列方法模拟进程池功能,并行执行多个子任务。进一步地,所述步骤二中,在对kmer集合中的每一个kmer,若其以非标准PAM为前缀或后缀,或其在参考基因组中的出现次数大于1,则其为非诱导RNA,否则其为候选诱导RNA;将所有的候选诱导RNA按本文档来自技高网
...

【技术保护点】
1.一种CRISPR诱导RNA文库设计方法,其特征在于,包括以下步骤:步骤一、在参考基因组中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer,构成kmer集合;步骤二、对kmer集合中的每一个kmer,将其切分成kmer1和kmer2两部分,其中kmer1为其前n个碱基组成的序列,将对应的kmer1相同的kmer2分成一个类别,将一个类别的kmer2对应的kmer1作为该类别kmer2的键序列;再将同一类别的kmer2构建到同一个检索树中,由此多个检索树,每个检索树的键序列为相应类别的kmer2的键序列;对kmer集合中的每一个kmer,若其以非标准PAM为前缀或后缀,或其在参考基因组中的出现次数大于1,或存在与其汉明距离小于M的kmer,则其为非诱导RNA,否则为诱导RNA;步骤三、将所有的诱导RNA按照kmer1分类,对所有类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer;其中,对一个类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer的方法具体为:首先计算该类别诱导RNA的kmer1与各个检索树的键序列的汉明距离,找出键序列与该类别候选诱导RNA的kmer1的汉明距离不大于Q的检索树;然后针对该类别的每一个候选诱导RNA,分别在找出的检索树中,搜索与该候选诱导RNA的kmer2的汉明距离不大于Q‑m的kmer2;将这些kmer2分别与它们所在的检索树的键序列连接在一起构成多条kmer,参考基因组中与这些kmer互补配对的序列即为该诱导RNA的脱靶序列;由此获得的诱导RNA及其脱靶序列信息即CRISPR诱导RNA文库。...

【技术特征摘要】
1.一种CRISPR诱导RNA文库设计方法,其特征在于,包括以下步骤:步骤一、在参考基因组中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer,构成kmer集合;步骤二、对kmer集合中的每一个kmer,将其切分成kmer1和kmer2两部分,其中kmer1为其前n个碱基组成的序列,将对应的kmer1相同的kmer2分成一个类别,将一个类别的kmer2对应的kmer1作为该类别kmer2的键序列;再将同一类别的kmer2构建到同一个检索树中,由此多个检索树,每个检索树的键序列为相应类别的kmer2的键序列;对kmer集合中的每一个kmer,若其以非标准PAM为前缀或后缀,或其在参考基因组中的出现次数大于1,或存在与其汉明距离小于M的kmer,则其为非诱导RNA,否则为诱导RNA;步骤三、将所有的诱导RNA按照kmer1分类,对所有类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer;其中,对一个类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer的方法具体为:首先计算该类别诱导RNA的kmer1与各个检索树的键序列的汉明距离,找出键序列与该类别候选诱导RNA的kmer1的汉明距离不大于Q的检索树;然后针对该类别的每一个候选诱导RNA,分别在找出的检索树中,搜索与该候选诱导RNA的kmer2的汉明距离不大于Q-m的kmer2;将这些kmer2分别与它们所在的检索树的键序列连接在一起构成多条kmer,参考基因组中与这些kmer互补配对的序列即为该诱导RNA的脱靶序列;由此获得的诱导RNA及其脱靶序列信息即CRISPR诱导RNA文库。2.根据权利要求1所述的CRISPR诱导RNA文库设计方法,其特征在于,所述步骤一中,并行在参考基因组的多个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer。3.根据权利要求2所述的CRISPR诱导RNA文库设计方法,其特征在于,将在参考基因组的多个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer作为一个总任务,将其划分为多个子任务,每个子任务即在参考基因组的一个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer;采用python的多进程模块中的进程和队列方法模拟进程池功能,并行执行多个子任务。4.根据权利要求1所述的CRISPR诱导RNA文库设计方法,其特征在于,所述步骤二中,并行将多个类别的kmer2分别构建到多个检索树中。5.根据权利要求4所述的CRISPR诱导RNA文库设计方法,其特征在于,把将多个类别的kmer2分别构建到多个检索...

【专利技术属性】
技术研发人员:王建新李涛王劭恺严承李敏
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1