【技术实现步骤摘要】
一种CRISPR诱导RNA文库设计方法
本专利技术属于功能基因组学领域,具体涉及一种CRISPR诱导RNA文库设计方法。
技术介绍
在当前一代的基因组编辑技术中,CRISPR系统(Clusteredregularlyinterspacedshortpalindromicrepeats成簇的规律间隔的短回文重复序列)与Cas9核酸酶(与CRISPR关联的RNA引导核酸酶9)的技术研究发展最快,其可以很容易地靶向几乎任何基因组位置,为基因工程的创新发展迈出了一大步。来自CRISPR系统的Cas9蛋白通过利用诱导RNA(guideRNA,gRNA,也称为向导RNA)与DNA靶序列碱基互补配对的特点将诱导RNA与蛋白的复合体定位到DNA靶序列。与目标位置下游的原间隔相邻基序(PAM)的结合有助于指导Cas9切割DNA双链,PAM是Cas9核酸酶切割DNA双链所必需的。其中诱导RNA是CRISPR-Cas系统的关键构件,由不变部分和可变部分组成,可变部分是与DNA靶序列互补的部分,可以通过人工设计可变部分实现诱导RNA与DNA不同位点的结合。CRISPR诱导RNA文库对于基因组编辑系统至关重要。随着基因组测序技术的进步,诱导RNA文库的设计对于理解基因组功能变得越来越重要。目前已经开发了许多诱导RNA设计工具,例如CRISPRDesign,Cas-OFFinder,CRISPRscan和E-CRISP,用于基因组编辑。然而,这些工具返回了独特但有重叠的诱导RNA集合,还忽略了全基因组非编码区,而且使用第三方比对工具进行脱靶序列搜索。最近,GuideScan软件改进了 ...
【技术保护点】
1.一种CRISPR诱导RNA文库设计方法,其特征在于,包括以下步骤:步骤一、在参考基因组中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer,构成kmer集合;步骤二、对kmer集合中的每一个kmer,将其切分成kmer1和kmer2两部分,其中kmer1为其前n个碱基组成的序列,将对应的kmer1相同的kmer2分成一个类别,将一个类别的kmer2对应的kmer1作为该类别kmer2的键序列;再将同一类别的kmer2构建到同一个检索树中,由此多个检索树,每个检索树的键序列为相应类别的kmer2的键序列;对kmer集合中的每一个kmer,若其以非标准PAM为前缀或后缀,或其在参考基因组中的出现次数大于1,或存在与其汉明距离小于M的kmer,则其为非诱导RNA,否则为诱导RNA;步骤三、将所有的诱导RNA按照kmer1分类,对所有类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer;其中,对一个类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer的方法具体为:首先计算该类别诱导RNA的kmer1与各个检索树的键序列的汉明距离,找出键序列与该类 ...
【技术特征摘要】
1.一种CRISPR诱导RNA文库设计方法,其特征在于,包括以下步骤:步骤一、在参考基因组中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer,构成kmer集合;步骤二、对kmer集合中的每一个kmer,将其切分成kmer1和kmer2两部分,其中kmer1为其前n个碱基组成的序列,将对应的kmer1相同的kmer2分成一个类别,将一个类别的kmer2对应的kmer1作为该类别kmer2的键序列;再将同一类别的kmer2构建到同一个检索树中,由此多个检索树,每个检索树的键序列为相应类别的kmer2的键序列;对kmer集合中的每一个kmer,若其以非标准PAM为前缀或后缀,或其在参考基因组中的出现次数大于1,或存在与其汉明距离小于M的kmer,则其为非诱导RNA,否则为诱导RNA;步骤三、将所有的诱导RNA按照kmer1分类,对所有类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer;其中,对一个类别的诱导RNA,遍历所有检索树,搜索与其汉明距离小于不大于Q的kmer的方法具体为:首先计算该类别诱导RNA的kmer1与各个检索树的键序列的汉明距离,找出键序列与该类别候选诱导RNA的kmer1的汉明距离不大于Q的检索树;然后针对该类别的每一个候选诱导RNA,分别在找出的检索树中,搜索与该候选诱导RNA的kmer2的汉明距离不大于Q-m的kmer2;将这些kmer2分别与它们所在的检索树的键序列连接在一起构成多条kmer,参考基因组中与这些kmer互补配对的序列即为该诱导RNA的脱靶序列;由此获得的诱导RNA及其脱靶序列信息即CRISPR诱导RNA文库。2.根据权利要求1所述的CRISPR诱导RNA文库设计方法,其特征在于,所述步骤一中,并行在参考基因组的多个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer。3.根据权利要求2所述的CRISPR诱导RNA文库设计方法,其特征在于,将在参考基因组的多个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer作为一个总任务,将其划分为多个子任务,每个子任务即在参考基因组的一个序列中扫描以标准PAM或者非标准PAM为前缀或后缀的kmer;采用python的多进程模块中的进程和队列方法模拟进程池功能,并行执行多个子任务。4.根据权利要求1所述的CRISPR诱导RNA文库设计方法,其特征在于,所述步骤二中,并行将多个类别的kmer2分别构建到多个检索树中。5.根据权利要求4所述的CRISPR诱导RNA文库设计方法,其特征在于,把将多个类别的kmer2分别构建到多个检索...
【专利技术属性】
技术研发人员:王建新,李涛,王劭恺,严承,李敏,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。