一种基于字符切片技术的含PAM结构gRNA靶向序列筛选方法及应用技术

技术编号:20489665 阅读:70 留言:0更新日期:2019-03-02 21:16
本发明专利技术属于基因工程领域,尤其涉及一种基于字符切片技术的含PAM(Protospacer Adjacent Motif)结构gRNA靶向序列筛选方法及应用系统。包括以下步骤:(1)读入目标基因的脱氧核苷酸(DNA)序列文件数据;(2)交互式界面输入需要分析筛选的PAM序列;(3)解读PAM模块将指定PAM基序转换成字符列表;(4)比较子字符串模块将PAM基序转换成字符列表逐一与移动窗口序列给定位置进行比较,并判断逻辑关系。(5)全程搜索模块在给定的DNA序列及其反向互补序列中搜索满足条件的序列并存储到空列表中。(6)文件输出模块将结果以文本或电子表格形式呈现。本发明专利技术解决了现有技术无法实现对给定DNA序列中筛选含有任意PAM识别基序的gRNA靶序列的筛选问题,为下一步gRNA靶序列的评估和选择奠定技术基础。

A Character Slicing-based Targeting Sequence Screening Method for GRNA Containing PAM Structure and Its Application

The invention belongs to the field of genetic engineering, in particular to a method and application system for screening gRNA targeting sequences containing PAM (Protospacer Adjacent Motif) structure based on character slicing technology. It includes the following steps: (1) reading the deoxynucleotide (DNA) sequence file data of the target gene; (2) interactive interface input needs to analyze and filter the PAM sequence; (3) interpreting the PAM module to convert the designated PAM base order into a character list; (4) comparing the substring module to convert the PAM base order into a character list one by one and comparing with the given position of the moving window sequence, and judging the logical relationship. (5) The whole search module searches the qualified sequence in the given DNA sequence and its reverse complementary sequence and stores it in the empty list. (6) The file output module presents the results in text or spreadsheet form. The present invention solves the problem that the prior technology can not realize the screening of gRNA target sequences containing arbitrary PAM recognition motifs in a given DNA sequence, and lays a technical foundation for the evaluation and selection of gRNA target sequences in the next step.

【技术实现步骤摘要】
一种基于字符切片技术的含PAM结构gRNA靶向序列筛选方法及应用
本专利技术属于基因工程领域,尤其涉及一种基于字符切片技术的含PAM(ProtospacerAdjacentMotif)结构gRNA靶向序列筛选方法及应用系统。
技术介绍
CRISPR(Clusteredregularlyinterspacedshortpalindromicrepeats)规律成簇间隔短回文重复;Cas9(CRISPRassociatednuclease)是CRISPR相关核酸酶,CCRISPR/Cas9是最新出现的一种由RNA指导的,利用Cas9核酸酶对靶向基因进行编辑的技术。CRISPR/Cas9系统广泛存在于原核生物基因中,是细菌和古细菌为应对病毒和质粒不断攻击而演化来的获得性免疫防御机制。在这些生物体中,来自噬菌体的外源遗传物质获得和整合入CRISPR位点。这些序列特异的片段被转录成短CRISPR的RNA(CRISPR-derivedRNA),crRNA通过碱基配对与tracrRNA(trans-activatingRNA)结合形成双链RNA,然后tracrRNA/crRNA复合体指导Cas9蛋白切断双链DNA。一旦crRNA结合到Cas9,Cas9核酸酶的构象发生改变,产生一条能通道,让DNA更容易结合。Cas9/crRNA复合体能够识别PAM(5'-NGG)位点导致DNA解旋,使crRNA找到PAM位点相邻的DNA互补链。当Cas9结合到PAM位点相邻的,与crRNA互补的DNA序列上,REC叶内部的桥螺旋和靶DNA形成RNA-DNA异源双链结构。PAM位点的识别包括可使靶DNA双链断裂(DSB)的HNH和RuvC核断裂的激活,导致DNA降解。如果crRNA与靶DNA不互补,Cas9将会释放出来,寻找新的PAM位点。DNA中的线性靶基因组断裂后可以通过非同源末端接合(NHEJ)或者同源介导的修复(HDR)来进行修复,而非同源末端接合(NHEJ)会引起插入或者删除错误,从而达到定点敲除某种基因的目的。在利用CRISPR/Cas9系统进行基因组编辑的过程中,tracrRNA和crRNA可以融合成为1条RNA(sgRNA)表达同样可以起到靶向剪切的作用。因此现在我们用的CRISPR/Cas9工具只有Cas9核酸酶和gRNA两部分。应用此工具,可以非常方便快捷的进行任意基因的编辑改造,比如基因敲除、敲入、定点突变等。与ZFN和TALEN技术相比,CRISPR/Cas9技术具有载体构建简单、基因编辑效率高、成本低等特点,目前广泛应用于基因功能研究和动植物精准分子育种等领域[1-2]。PAM序列是结合靶标必不可少的,具体序列取决于Cas9的种类。目前,广泛使用的酿脓链球菌(Streptococcuspyogenes)SpCas9在植物中所识别的PAM主要是NGG[3]。为了扩展CRISPR/Cas9在基因组中的编辑范围,人们从不同微生物中鉴定了识别不同PAM的同源蛋白,如嗜热性链球菌(Streptococcusthermophiles)CRISPR3Cas9识别NGGNGPAM[4],嗜热链球菌(Streptococcusthermophiles)CRISPR1Cas9识别NNAGAAWPAM[5],脑膜炎奈瑟菌(Neisseriameningitides)NmeCas9识别NNNNGATTPAM[6],金黄色酿脓葡萄球菌(Staphylococcusaureus)SaCas9识别GGAGTPAM[7],空肠弯曲杆菌(Campylobacterjejuni)CjCas9识别NNNNACAC或NNNNRYACPAM[8]。SpCas9变体VQR(D1135V/R1335Q/T1337R)和VRER(D1135V/G1218R/R1335E/T1337R)分别可以识别NGAPAM和NGCGPAM[9];而变体xCas9可以识别NG、GAA和GAT3种PAM[10]。随着研究的深入,科学家们发现了多种CRISPR/Cas系统,据Cas蛋白的数量可以分为两类(ClassI和ClassII),据Cas的结构和功能可分为6种(TypeI~VI),并可进一步分为多个亚型(Subtype)。相比ClassI,ClassII仅需一个Cas蛋白,因此目前基因编辑中常用的系统均为ClassII,如Cas9,及不需要tracrRNA的Cpf1(Cas12a)和具有RNA切割活性的Cas13[11]。不管是ClassI和ClassIICas9,在切割DNA或RNA中,都需要识别含有PAM结构的靶序列。在生物医药领域,科学家们利用CRISPR/Cas9技术可对目标序列进行精确的定位操作,为遗传性疾病、癌症及病毒感染性疾病等提供了新的治疗手段。遗传性疾病一直是威胁人类健康的难治性疾病,遗传疾病相关突变基因的发现,小鼠模型的构建,到CRISPR-Cas9治疗遗传性疾病,该技术在人类遗传病基础理论研究、临床治疗等领域具有光明前景[12-13]。在农作物育种中,CRISPR/Cas9基因编辑技术对抗性、产量、品质和育性等相关基因的定点编辑,使其在作物定向遗传改良中的应用越来越广泛,其中包括对不利基因的敲除、对有利基因调控区的编辑、对表观基因的调控等[11,14-18]。然而对动物、植物及微生物的基因编辑操作,都需要对靶序列的筛选与评估。但是,复杂多变的PAM识别基序给gRNA靶序列的筛选带来了一定的难度,尤其PAM基序存在简并性时。目前,尚无专门针对含有任意PAM识别基序的gRNA靶序列算法及应用系统。本专利技术基于字符切片技术,利用简单的脚本语言(python),快速、准确地从DNA序列中筛选出含有任意指定PAM基序的gRNA靶序列,同时计算该序列的GC含量、在DNA序列中位置及链的位置,并以数据表格或文本格式呈现结果,为下一步gRNA靶序列的评估和选择奠定技术基础。
技术实现思路
本专利技术所要解决的技术问题在于提供一种基于字符切片技术快速、准确地从DNA序列中筛选出含有任意指定PAM基序的gRNA靶序列方法及系统,旨在解决现有技术无法实现对给定DNA序列中筛选含有任意PAM识别基序的gRNA靶序列的问题。本专利技术是这样实现的,一种基于字符切片技术快速、准确地从DNA序列中筛选出含有任意指定PAM基序的gRNA靶序列方法,包括:文件输出模块:指定路径或以文本形式输入DNA或cDNA。计算GC模块:计算gRNA靶序列GC含量。DNA互补模块:将给定DNA序列转换成反向互补序列。DNA反向重排模块:将给定DNA序列转换成反向序列。解读PAM模块:通过用户输入将指定PAM基序转换成字符列表。子字符串位置模块:以字符形式返回子字符串在总字符串中的起始位置。比较子字符串模块:将PAM基序转换成字符列表逐一与移动窗口序列给定位置进行比较,并判断逻辑关系。全程搜索模块:在给定的DNA序列及其反向互补序列中搜索满足条件的序列并存储到空列表中。文件输出模块:将结果以文本或电子表格形式呈现。进一步地,所述计算GC模块具体用于:根据输入序列计算GC含量。defgc(s):gcc=100*(s.count('G')+s.count('C'))/len(s)returnstr(fl本文档来自技高网
...

【技术保护点】
1.一种基于字符切片技术的含Protospacer Adjacent Motif (PAM)结构gRNA靶向序列筛选方法及应用,其特征在于 ,包括以下步骤:(1)读入目标基因的脱氧核苷酸(DNA)序列文件数据;(2)交互式界面输入需要分析筛选的PAM序列;(3)解读PAM模块将指定PAM基序转换成字符列表;(4)比较子字符串模块将PAM基序转换成字符列表逐一与移动窗口序列给定位置进行比较,并判断逻辑关系;(5) 全程搜索模块在给定的DNA序列及其反向互补序列中搜索满足条件的序列并存储到空列表中;(6) 文件输出模块将结果以文本或电子表格形式呈现。

【技术特征摘要】
1.一种基于字符切片技术的含ProtospacerAdjacentMotif(PAM)结构gRNA靶向序列筛选方法及应用,其特征在于,包括以下步骤:(1)读入目标基因的脱氧核苷酸(DNA)序列文件数据;(2)交互式界面输入需要分析筛选的PAM序列;(3)解读PAM模块将指定PAM基序转换成字符列表;(4)比较子字符串模块将PAM基序转换成字符列表逐一与移动窗口序列给定位置进行比较,并判断逻辑关系;(5)全程搜索模块在给定的DNA序列及其反向互补序列中搜索满足条件的序列并存储到空列表中;(6)文件输出模块将结果以文本或电子表格形式呈现。2.根据权利要求1所述的一种基于字符切片技术的含PAM结构gRNA靶向序列筛选方法及应用,其特征在于,整个方法包括解读PAM模块、比较子字符串模块、全...

【专利技术属性】
技术研发人员:陈晓军樊云芳马斯霜白海波惠建李树华
申请(专利权)人:宁夏农林科学院农业生物技术研究中心宁夏农业生物技术重点实验室
类型:发明
国别省市:宁夏,64

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1