一种基于特征工程的基因编辑脱靶效应预测方法技术

技术编号:38106358 阅读:9 留言:0更新日期:2023-07-06 09:28
本发明专利技术公开了一种基于特征工程的基因编辑脱靶效应预测方法,包括以下步骤:S1:获取公开数据集:获取包含sgRNA序列与目标DNA序列不匹配的公开实验数据作为可能的脱靶序列,所述数据集包括GUIDE

【技术实现步骤摘要】
一种基于特征工程的基因编辑脱靶效应预测方法


[0001]本专利技术涉及生物信息学领域,尤其涉及一种基于特征工程的基因编辑脱靶效应预测方法。

技术介绍

[0002]CRISPR/Cas9系统介导的基因组编辑技术是继锌指核酸酶、类转彔激活因子效应物核酸酶后出现的第三代“基因组定点编辑技术”,可对特定位置上的DNA序列迚行编辑与修改,该技术成本低、易操作并在基因敲除敲入、基因表达调控和基因组碱基编辑等领域取得了一系列显著的成就并获得了关注。
[0003]然而,该技术目前还存在许多问题亟待解决,脱靶效应便是其中影响较大的一个问题,脱靶效应导致严重的医学风险并阻碍着CRISPR/Cas9系统进一步的临床应用。
[0004]因此,脱靶预测对于指导设计良好的sgRNA以及基因组编辑效率和风险有着非常大的评估意义。
[0005]然而不同的基于比对的方法允许不同的条件,影响潜在脱靶位点搜索的完整性(例如Bowtie与Cas

OFFinder工具对于PAM类型与碱基错配数量的限制要求不同)。基于评分的方法解决的主要问题为对潜在脱靶位点进行评分(预测脱靶发生的可能性)。
[0006]经检索,申请号CN111261223B的中国专利,公开了一种基于深度学习的CRISPR脱靶效应预测方法,其实利用基因组的先验信息同时利用SMOTE方法解决实验数据标签不平衡的问题,并也考虑到采用深度学习方案。
[0007]然而,与脱靶预测有关的特征种类比较多,这些计算方法都不能充分利用或者只能利用比较单一的特征进行模型训练,深度学习模型虽然对学习高维抽象特征的模式有很好的能力,但却损失了其他如生物学结构特征,热力学特征以及评分等先验特征信息,使得模型学习性能有比较大的瓶颈。
[0008]另一方面,CRISPR/Cas9脱靶数据集普遍存在样本不平衡问题,即正负样本的数量非常悬殊,正样本数量远远小于负样本数量。这对深度学习算法的泛化性能提出了很大的挑战。在不平衡数据集上训练的模型往往很难完全学习到正样本的特征模式,使得模型训练精度很高但在实际预测时往往性能下降很大。

技术实现思路

[0009]本专利技术的目的是为了解决现有技术中存在的缺陷,而提出的基于特征工程的基因编辑脱靶效应预测方法。
[0010]为了实现上述目的,本专利技术采用了如下技术方案:
[0011]一种基于特征工程的基因编辑脱靶效应预测方法,包括以下步骤:
[0012]S1:获取公开数据集:获取包含sgRNA序列与目标DNA序列不匹配的公开实验数据作为可能的脱靶序列,所述数据集包括GUIDE

Seq,HTGTS,BLESS;
[0013]S2:每个序列样本长度为23个碱基,并以NGG结尾,对数据集标签进行预处理,将包
含脱靶位点的样本标记为正样本,标签为1,不包含脱靶位点的样本标记为负样本,标签为0;
[0014]S3:对样本数据集进行编码并加入特征;
[0015]S4:通过LSTM网络模型提取特征,其中,LSTM网络模型包括:卷积特征融合模块、门控循环单元特征融合模块、卷积层和密集层;
[0016]S5:将序列特征得到分数与手工特征分数进行结合;
[0017]S6:采用SMOTE方法对正样本进行过采样,并结合欠采样选出对应数量的负样本;
[0018]S7:将处理后得到的数据集样本按照85%:15%的比例划分为训练集与测试集;
[0019]S8:使用嵌入式特征选择对样本特征进行选择和过滤;
[0020]S9:将训练好的模型使用测试集进行评估,主要评估指标采用Accuracy和AUC值,其中,Accuracy越高表示预测准确率越好,AUC越高表示预测稳定性和分类效果更优。
[0021]进一步地,步骤S3中,具体包括以下步骤:
[0022]将A、T、G、C四个碱基与碱基缺失编码为五个one

hot独热向量(1,0,0,0,0),(0,1,0,0,0),(0,0,1,0,0),(0,0,0,1,0),(0,0,0,0,1),使用或操作获得碱基对编码,同时,增加两个方向通道用于帮助区分碱基对类型;
[0023]使用LSTM网络对编码后的特征向量进行特征的学习,并得到一个基于序列特征的脱靶预测分数。
[0024]进一步地,在步骤S4中,模型输入为上述sgRNA

DNA序列对编码矩阵,编码矩阵的大小为(23,7),其中,23是序列长度,7是核苷酸对的编码位数。
[0025]进一步地,编码后的序列特征处理过程流程为:
[0026]编码矩阵输入卷积特征融合模块,其中,卷积特征融合模块由多个卷积模块组成,每个卷积模块包含一个卷积层,一个批正则化层,一个PReLU激活层;
[0027]多个卷积核叠加形成卷积层,通过卷积层,模型依次对每个核苷酸对的编码进行卷积操作,获得核苷酸对的抽象类型特征;
[0028]将输入与卷积模块的输出进行拼接操作,构建一个具有高低层核苷酸对类型特征的特征图;
[0029]随后,卷积特征融合模块提取的特征图将输入到正向GRU特征融合模块与反向GRU特征融合模块,其中,两个融合模块都基于GRU模块构建,每个GRU模块包括一个GRU层,一个批正则化层,一个PReLU激活层,一个丢弃层;
[0030]正向GRU特征融合模块,反向GRU特征融合模块,与卷积特征融合模块输出的特征图进行堆叠合并后,用于后续网络层的特征学习;
[0031]通过平均池化操作对特征的小变换变得近似不变,提高模型的泛化能力;
[0032]最后,提取的特征输入到密集层,预测发生脱靶效应的分数。
[0033]进一步地,在步骤S5中,具体包括以下步骤:
[0034]sgRNA与六个特征共同构成特征向量,并加入生物学特征,同时添加相应的二分类标签0或1,其中,六个特征包括:DNA对的CFD分数、CCTop分数、CRISTA分数、GC含量、错配个数和sgRNA

DNA序列相似性得分。
[0035]进一步地,步骤S6还用于对噪音数据进行清洗,其中,在步骤S6中具体使用imblearn包的SMOTEENN方法获得最终的正负样本
[0036]进一步地,在步骤S8中,学习器采用DenseNet深度学习模型,网络结构由稠密块和过渡层组成,其中,稠密块,用于定义如何连接输入和输出,过渡层,用于控制通道数量,使模型不会太复杂;
[0037]进一步地,采用DenseNet深度学习模型的具体流程为:
[0038]DenseNet首先使用单卷积层和最大汇聚层,其中,加入批量正则化对应上述嵌入式特征选择过滤;
[0039]接下来使用4个稠密块,设置每个稠密块使用4个卷积层,稠密块里的卷积层通道数设为32,所以每个稠密块将增加128个通道,其中,在每个模块之间,DenseNet使用过渡层来减半高和宽,并减本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征工程的基因编辑脱靶效应预测方法,其特征在于,包括以下步骤:S1:获取公开数据集:获取包含sgRNA序列与目标DNA序列不匹配的公开实验数据作为可能的脱靶序列,其中,所述数据集包括GUIDE

Seq,HTGTS,BLESS;S2:每个序列样本长度为23个碱基,并以NGG结尾,对数据集标签进行预处理,将包含脱靶位点的样本标记为正样本,标签为1,不包含脱靶位点的样本标记为负样本,标签为0;S3:对样本数据集进行编码并加入特征;S4:通过LSTM网络模型提取特征,其中,LSTM网络模型包括:卷积特征融合模块、门控循环单元特征融合模块、卷积层和密集层;S5:将序列特征得到分数与手工特征分数进行结合;S6:采用SMOTE方法对正样本进行过采样,并结合欠采样选出对应数量的负样本;S7:将处理后得到的数据集样本按照85%:15%的比例划分为训练集与测试集;S8:使用嵌入式特征选择对样本特征进行选择和过滤;S9:将训练好的模型使用测试集进行评估,主要评估指标采用Accuracy和AUC值,其中,Accuracy越高表示预测准确率越好,AUC越高表示预测稳定性和分类效果更优。2.根据权利要求1所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,步骤S3中,具体包括以下步骤:将A、T、G、C四个碱基与碱基缺失编码为五个one

hot独热向量(1,0,0,0,0),(0,1,0,0,0),(0,0,1,0,0),(0,0,0,1,0),(0,0,0,0,1),使用或操作获得碱基对编码,同时,增加两个方向通道用于帮助区分碱基对类型;使用LSTM网络对编码后的特征向量进行特征的学习,并得到一个基于序列特征的脱靶预测分数。3.根据权利要求1所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,在步骤S4中,模型输入为上述sgRNA

DNA序列对编码矩阵,编码矩阵的大小为(23,7),其中,23是序列长度,7是核苷酸对的编码位数。4.根据权利要求3所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,编码后的序列特征处理过程流程为:编码矩阵输入卷积特征融合模块,其中,卷积特征融合模块由多个卷积模块组成,每个卷积模块包含一个卷积层,一...

【专利技术属性】
技术研发人员:黄一人江振然
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1