一种基于深度学习的CRISPR脱靶效应预测方法技术

技术编号：24462403 阅读：38 留言：0更新日期：2020-06-10 17:24

本发明专利技术属于生物信息学领域，公开了一种基于深度学习的CRISPR脱靶效应预测方法，通过使用BERT模型对人类基因组进行信息的抽取，有效地利用基因组的先验信息，并对数据进行有效地加强，最后将获取到的特征输入到LightGBM方法中进行训练预测，本发明专利技术解决了数据量少和数据不平衡的问题，并实现了对CRISPR脱靶效应的有效预测，具有十分重要的推广应用价值。

A prediction method of CRISPR Miss effect based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的CRISPR脱靶效应预测方法
本专利技术涉及一种基于深度学习的CRISPR脱靶效应预测方法，属于生物信息学领域。
技术介绍
CRISPR/Cas9系统介导的基因编辑技术是继锌指核酸酶、类转录激活因子效应物核酸酶后出现的第三代“基因组定点编辑技术”，可对特定位置上的DNA序列进行编辑与修改。近年来，CRISPR/Cas9技术主要应用于基因敲除、基因敲入、DNA大片段删除、转录调控、基因检测、基因标记。但是，该技术还存在许多科学问题有待研究。比如，CRISPR/Cas9是一种单链酶，其自身具有不稳定性，容易引起突变导致脱靶效应。因此，克服脱靶效应和提高基因组编辑效率成为研究人员亟待解决的问题。然而目前对于CRISPR的脱靶效应预测主要采用生物信息和实验经验等人工方式，效率十分低下。另一方面，目前的自动化方法并不能有效地利用基因组的先验信息，也不能很好的处理当下实验数据标签不平衡的问题。有鉴于此，有必要专利技术一种方法，该方法既能有效利用基因组的先验信息，也对实验数据进行增强，以解决数据少的问题，进而能有效地对CRISPR/Cas9本文档来自技高网...

【技术保护点】
1.一种基于深度学习的CRISPR脱靶效应预测方法，其特征在于，包括如下步骤：/n第一步、开始对人类基因组hg19所有的基因过滤：为避免预训练的数据过于庞大造成后续预测精度的降低，需要首先过滤掉与任务无关的数据，并且针对性地找出所有PAM序列为NGG的基因片段，进而对PAM序列为NGG的序列对进行预测；/n第二步、对原始语料进行预处理,具体分为如下四个步骤：/n1.首先将序列以空格为间隔进行切分；/n2.构建序列样本对，随机地将两个序列进行组合，正例样本对为两个序列有上下文关系，负例样本对为两个序列无上下文关系；/n3.连接序列对，用[SEP]标签进行分割序列，并在序列对的最开头置[CLS]标...

【技术特征摘要】
1.一种基于深度学习的CRISPR脱靶效应预测方法，其特征在于，包括如下步骤：
第一步、开始对人类基因组hg19所有的基因过滤：为避免预训练的数据过于庞大造成后续预测精度的降低，需要首先过滤掉与任务无关的数据，并且针对性地找出所有PAM序列为NGG的基因片段，进而对PAM序列为NGG的序列对进行预测；
第二步、对原始语料进行预处理,具体分为如下四个步骤：
1.首先将序列以空格为间隔进行切分；
2.构建序列样本对，随机地将两个序列进行组合，正例样本对为两个序列有上下文关系，负例样本对为两个序列无上下文关系；
3.连接序列对，用[SEP]标签进行分割序列，并在序列对的最开头置[CLS]标签；
4.把原始基因语料中15％的碱基字符进行遮盖：80％的概率使用[MASK]标签来进行替换，10％的概率使用随机采样的一个碱基来进行替换，10％的概率不进行替换；
第三步、对模型进行预训练：根据上一步预处理后的训练语料数据训练BERT序列模型，BERT序列模型包括词嵌入层，多头Attention编码器层，残差网络层，前馈神经网络层；
进一步使用两个步骤去对模型进行训练：第一个步骤是让模型的上下文全向地预测被遮盖的词，模型的任务是正确地预测出这15％的被遮盖的词汇，通过全向预测被遮盖住的词汇，来初步训练模型的参数；然后，用第二个步骤继续训练模型的参数，即让模型来识别这些序列对，哪些是连续的，哪些不连续；
第四步、获取由BERT提取的词向量，由于BERT是一个多层Attention的组合，每个碱基tk在每一层都会有一个特征表示，将一个L层的BERT表达如下：

Rk为第k个碱基所得到的所有特征表示，其中xkAT为该碱基的词嵌入层的输出，hATk,j是第j层的多头Attention层的输出；
最后确定通用表达式如下：

是第k个碱基针对脱靶预测任务task所得到的最终的词向量，E(Rk；Θtask)中Θtask为针对脱靶预测任务的参数，其中包括γtask和γtask是一个固定的常数值，是第j层多头Attention层输出值所要乘的一个可学习的系数值，最终的输出是由最后四层的多头Attention层的输出进行加权融合而得到；
第五步、将获取到的BERT碱基向量和人工特征进行结合得到最终的特征向量，进而得到所有训练样本的向量；由于样本极度不平衡，进一步对样本数较少的一类使用SMOTE方法进行数据增强操作；
第六步、将训练集输入到LightGBM中进行训练，最后得到模型，模型的最后输出为一个概率值，这个值即为判断是否出现脱靶效应的依据。

2.如权利要求1所述的一种基于深度学习的CRISPR脱靶效应预测方法，其特征在于，所述第三步中的词嵌入层在序列的One-hot向量的基础上增加了位置嵌入的信息，对序列长度为n的序列，词嵌入层将id为pos的碱基映射为dmodel维的位置向量，PE(pos,2i)和PE...

【专利技术属性】
技术研发人员：彭绍亮，陈东，舒文杰，李肯立，骆嘉伟，刘云浩，刘凡，刘阳辉，刘浩，
申请(专利权)人：湖南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人