CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置制造方法及图纸

技术编号:15640089 阅读:209 留言:0更新日期:2017-06-16 03:41
本发明专利技术涉及CRISPR-Cas9系统sgRNA作用靶点的筛选方法,包括:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段(x为19~22之间的整数,N代表A/T/C/G),作为CRISPR-Cas9系统sgRNA的候选靶点;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。本发明专利技术还提供用于实现上述筛选方法的装置。本方法适用于所有已知基因组及其基因注释信息的物种,快速高效获得其全基因组水平的sgRNA序列全集来构建基因敲除突变体文库或基因敲除动物模型。

【技术实现步骤摘要】
CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
本专利技术涉及生物信息学、蛋白质组学、转录组学及基因工程领域,具体地说,涉及CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置。
技术介绍
随着DNA测序技术的发展,许多模式生物的基因组序列信息已被公布,随后科研工作者将研究重点转向对基因功能信息的挖掘上。基因敲除动物模型一直以来是在活体动物上从事基因功能研究、寻找合适药物作用靶点的重要工具。但是传统的基因敲除方法需要通过复杂的打靶载体构建、胚胎干细胞(ES细胞)的筛选、嵌合体繁育等一系列步骤,不仅操作流程繁琐,对实验人员的技术要求很高,而且费用昂贵,耗时较长,且成功率也受到多方面因素的影响。即使对于技术相对成熟的实验室,利用传统技术构建基因敲除大、小鼠模型一般也需要很长时间。2013年,美国两个实验室在《Science》杂志发表了基于CRISPR-Cas9系统在细胞系中进行基因编辑的新方法,该系统的原理是crRNA(CRISPR-derivedRNA)通过碱基互补配对与tracrRNA(trans-activatingRNA)结合形成tracrRNA/crRNA的复合物,该复合物可以引导核酸内切酶Cas9蛋白在与crRNA配对的序列靶位点切割双链DNA。而通过人工设计这两种RNA,可以改造形成具有引导作用的sgRNA(shortguideRNA),即可引导Cas9对DNA的定点切割,一旦切割完成,细胞会启动各种修复方式来修补被剪掉的部分,其中最常见的是非同源末端连接(NHEJ)的修复方式,该种修复方式使得修复过程很容易出错,这就很大概率地引入使基因功能丧失的变异(如插入或者缺失部分碱基序列以造成移码突变),这使得研究者能通过突变体来了解被编辑的基因的功能。该项技术已经被迅速应用到基因敲除斑马鱼、小鼠和大鼠等动物模型的构建之中。CRISPR-Cas9技术是继锌指核酸酶(ZFN)和TALEN等技术之后可用于定点构建基因敲除动物的新方法,具有效率高、速度快、生殖系传递能力强及简单经济的特点,在动植物模型构建的应用前景非常广阔。目前在动物研究领域,有很多基于单个功能基因进行设计的Cas9靶点,但还缺乏一套筛查全基因组靶点的成熟方法。本专利技术根据Cas9在基因组中编辑靶点的偏好性,开发了一套获取动物全基因组水平Cas9靶点序列的方法。通过此方法设计出来的靶点文库,使得CRISPR可以同时针对全基因组水平的基因靶向,获得高通量的基因突变体库,该方法在基础研究中(例如药物研发和农业)将发挥巨大作用。
技术实现思路
本专利技术的目的是提供一种CRISPR-Cas9系统sgRNA作用靶点的筛选方法。本专利技术的另一目的是提供一种筛选CRISPR-Cas9系统sgRNA作用靶点的装置。为了实现本专利技术目的,本专利技术提供的CRISPR-Cas9系统sgRNA作用靶点的筛选方法,包括以下步骤:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。前述的方法,步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端(实验表明,靠近5’端的外显子,其功能性更强);③优选地,每个基因提取两个外显子(选取两个外显子是为了保证基因被修饰后其功能尽可能地发生变化),具体步骤为:以转录本为单位(若以转录本为单位,一个基因有可能重复取到同一个外显子,下文有去重复的步骤),从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号等相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列(保存为fasta格式文件)。候选外显子的筛选设计见图1。其中,fastaFromBed程序中的-s参数的作用是获取反向互补序列,这样就得到了所有外显子的编码链序列信息,便于筛选NGG位点(不用考虑负链,但要注意位置信息)。所有外显子的编码链序列提取它们的前19~22bp序列保存成fasta格式(注意此时的始末位置信息,正负链的情况有所区别,另外由于最终在与基因组水平的NGG序列进行比对时,需去除自比的比对结果,因此就需要详尽了解每一个外显子上的NGG序列所在的基因组始末位置,正负链信息等。因此要进行相应的格式调整)。鉴于上文提到的以转录本为单位会重复取得外显子的情况,进一步对获取的序列进行了去重复处理。最后获得的基因组中所有基因上的候选靶点5’-Nx-NGG-3’序列,统计其覆盖的基因数目,外显子数目,以及候选外显子上获得的NGG位点个数。前述的方法,步骤(2)中筛选中符合条件的序列的具体步骤为:全基因组筛选采用k-mer打断、再比对找回位置的方法来定位基因组中的NGG序列。首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列(保存为fasta格式文件);由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位置。正负链分别进行比对,比对结束后,将NGG三个碱基从正链中去除,同时将CCN三个碱基从负链中去除,保存为19~22bp的含位置信息的fasta格式文件。前述的方法,步骤(3)中比对的具体步骤为:①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为uniquereads;③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基(即在基因组其它位置完全比对上)或错配1个碱基(即在基因组其它位置比对上,且只有1个碱基错配),表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基(即在基因组其它位置比对上,但有2个碱基错配)或错配3个碱基(即在基因组其它位置比对上,但有3个碱基错配),将这些靶点序列标注为candidatereads,这些reads的所有比对结果通过公式进行打分,打分公式如下:其中,MS代表错配罚分,本文档来自技高网
...
CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置

【技术保护点】
CRISPR‑Cas9系统sgRNA作用靶点的筛选方法,其特征在于,包括以下步骤:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’‑Nx‑NGG‑3’序列的区段,作为CRISPR‑Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。

【技术特征摘要】
1.CRISPR-Cas9系统sgRNA作用靶点的筛选方法,其特征在于,包括以下步骤:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。2.根据权利要求1所述的方法,其特征在于,步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端;③优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列。3.根据权利要求1所述的方法,其特征在于,步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位置。4.根据权利要求1所述的方法,其特征在于,步骤(3)中比对的具体步骤为:①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为uniquereads;③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidatereads,这些reads的所有比对结果通过公式进行打分,打分公式如下:其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidatereads;⑤步骤②的uniquereads和步骤④打分通过的candidatereads即为最优的全基因组sgRNA作用靶点集合。5.根据权利要求1-4任一项所述的方法,其特征在于,包括以下步骤:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为20,N代表碱基A、T、G或C;(2)将基因组打断成20bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选...

【专利技术属性】
技术研发人员:赵毅强高菲王宇哲许文杰胥春龙吴森胡晓湘
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1