【技术实现步骤摘要】
一种基于深度学习的植物抗旱基因的识别方法
[0001]本专利技术涉及一种基因识别方法,属于基因识别领域。
技术介绍
[0002]在农业生产中,干旱是威胁农作物高产、稳产的主要自然因素之一。随着人口的不断增长、农业用水需求的增加以及可利用淡水量的降低,进一步加剧了干旱对农业生产的影响,所以识别植物是否具有抗旱基因成为研究的重点。传统的湿实验虽然是挖掘基因功能的主要手段,但其耗时长,成本大,不适用于对大批材料进行识别。由于抗旱性是一个受多基因调控的复杂数量性状,因此通过田间试验来鉴定一个基因是否抗旱难度很大。对植物序列进行功能预测的另一种主要方法是通过blast比对,找到同源性较强的序列或者通过寻找功能结构域判断出基因的功能,但此方法对序列同源性依赖性高,会导致预测结果出现较大误差,存在过高的假阳性率和假阴性率,准确率低。
技术实现思路
[0003]本专利技术为了解决现有的植物抗旱基因识别方法耗时长,成本大或过度依赖序列同源性,导致预测结果准确率低的问题,进而提出了一种基于深度学习的植物抗旱基因的识别方法。 />[0004]它包本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的植物抗旱基因的识别方法,其特征在于:它包括以下步骤:S1、获取不同植物的氨基酸序列及其对应的样本标签,样本标签为是否具有抗旱基因;S2、将每条氨基酸序列分为多个长度为2的kmer,根据kmer提取每条氨基酸序列的特征;S3、构建BiLSTM
‑
Attention模型,BiLSTM
‑
Attention模型依次包括输入层、词嵌入层、特征提取层、注意力层和输出层,将每条氨基酸序列的特征输入BiLSTM
‑
Attention模型中进行训练,输出所述氨基酸序列是否具有抗旱基因,直至满足迭代次数上限,得到训练好的BiLSTM
‑
Attention模型;S4、获取待测的植物氨基酸序列,根据S2得到植物氨基酸序列的特征,将特征输入S3训练好的BiLSTM
‑
Attention模型,输出当前氨基酸序列是否具有抗旱基因。2.根据权利要求1中所述的一种基于深度学习的植物抗旱基因的识别方法,其特征在于:S2具体过程为:将每条氨基酸序列分为多个长度为2的kmer,则20种氨基酸能够组成400种短片段,即X={AA,AC,AD,AE,...,WY,YY},统计400种短片段在每条氨基酸序列中出现的频率,根据频率将所对应的氨基酸序列转化为400维的特征向量,即得到了每条氨基酸序列的特征。3.根据权利要求2中所述的一种基于深度学习的植物抗旱基因的识别方法,其特征在于:S3具体过程为:S31、每条氨基酸序列的特征经过BiLSTM
‑
Attention模型的输入层进入词嵌入层,在词嵌入层内对输入的特征进行编码,输出编码后的特征;S32、将编码后的特征输入特征提取层内,输出特征一;S33、将特征一输入注意力层内,输出当前氨基酸序列是否具有抗旱基因。4.根据权利要求3中所述的一种基于深度学习的植物抗旱基因的识别方法,其特征在于:S31具体过程为:将每条氨基酸序列的特征输入词嵌入层,词嵌入层对输入的特征进行编码,则每条氨基酸序列的特征S包含400个词,即S={a1,a2,a3,...,a
400
}其中,a
i
表示频度数字;每一个词都被转化成一个实数向量e
i
,则当前输入特征的词嵌入矩阵为B={e1,e2,e3,......
【专利技术属性】
技术研发人员:刘轩睿,乔白雪,孙善文,汪国华,邹权,史婷婷,解莉楠,张庆祝,王江,李易奇,谷家世,幸家弘,
申请(专利权)人:东北林业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。