【技术实现步骤摘要】
一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法
[0001]本专利技术涉及基因编辑领域,尤其涉及一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法。
技术介绍
[0002]CRISPR/Cas9系统是目前基因编辑领域中被普遍使用的一种技术,其具有操作简单、成本低廉应用广泛等优点,但在编辑过程中,sgRNA与基因组的DNA序列结合时存在一定几率的错配,这种错配导致了在非靶向位点的基因突变,使得实验结果存在一定程度的不确定性,业内将这种现象称为脱靶,由于较高的脱靶率限制了CRISPR/Cas9系统的大规模临床应用,因此如果能准确地预测CRISPR/Cas9系统的脱靶则对于该系统的进一步的推广应用至关重要;因此,专利技术出一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法变得尤为重要;
[0003]经检索,中国专利号CN111613267A公开了一种基于注意力机制的CRISPR/Cas9脱靶预测方法,该专利技术虽然更加准确全面的预测CRISPR/Cas9 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法,其特征在于,该预测方法具体步骤如下:(1)构建数据集并对其进行编码处理:构建包含sgRNA
‑
DNA及其脱靶标签的用于模型训练及测试的数据集,并采用特定的编码方法对样本数据集中的sgRNA
‑
DNA序列对进行数据编码;(2)对编码的序列进行特征提取:将经过编码的sgRNA
‑
DNA序列对输入到Transformer层中进行特征提取;(3)构建脱靶模型并对其进行训练测试:构建脱靶模型,同时对提取出的特征进行特征映射处理,并依据各组sgRNA
‑
DNA序列对特征映射结果对sgRNA
‑
DNA序列对的脱靶标签进行拟合以对脱靶模型进行训练测试;(4)进行脱靶预测实验并记录实验结果:脱靶模型训练完成后,在划分好的测试集上进行测试,完成测试后,对测试结果进行记录。2.根据权利要求1所述的一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法,其特征在于,步骤(1)中所述数据编码具体步骤如下:步骤一:将其中的包含脱靶位点的样本标记为正样本,用数字1作为标签;不包含脱靶位点的样本记为负样本,用数字0作为标签;步骤二:定义一个碱基对的词典,并在该词典中查找sgRNA
‑
DNA序列对每个位置的核苷酸对所对应的数值以对各组sgRNA
‑
DNA序列对进行编码;步骤三:对每一个数据集,将其按照8:2的比例划分为训练集和测试集。3.根据权利要求1所述的一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法,其特征在于,步骤(2)中所述特征提取具体步骤如下:第一步:将各组sgRNA
‑
DNA序列对输入Embedding层,并将输入的序列对转换成词向量,获取对应位点的位置编码,并构建位置向量,其中,位置向量具体计算公式为获取对应位点的位置编码,并构建位置向量,其中,位置向量具体计算公式为以及以及第二步:将词向量与位置向量输入一个由2层4头ReLU激活函数构成的Encoder层;第三步:在层与层之间采用layer normalization归一化策略对隐藏层词向量进行调整,其具体调整公式为整,其具体调整公式为第四步:将Transf...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。