一种植物抗性蛋白识别方法、装置、设备和存储介质制造方法及图纸

技术编号:28744907 阅读:49 留言:0更新日期:2021-06-06 18:01
本申请提供了一种植物抗性蛋白识别方法、装置、设备和存储介质。方法包括:获取植物抗性蛋白的序列数据,组成正训练集、负训练集和测试集;提取正训练集和负训练集中的数据特征;将所有的数据特征进行拼接,获得特征集;进行特征选择,以获取目标特征子集;筛选出预设分类模型和预设k值;基于目标特征子集,对预设分类模型进行训练;基于测试集,对训练后的分类模型进行分类性能测试,直至获得性能满足预设条件的目标分类模型;基于目标分类模型,对序列数据进行结构域和跨膜蛋白预测,并搭建植物抗性蛋白分类预测器,以用于植物抗性蛋白识别。能够实现准确识别植物抗性蛋白。能够实现准确识别植物抗性蛋白。能够实现准确识别植物抗性蛋白。

【技术实现步骤摘要】
一种植物抗性蛋白识别方法、装置、设备和存储介质


[0001]本申请涉及生物信息
,特别是涉及一种植物抗性蛋白识别方法、装置、设备和存储介质。

技术介绍

[0002]粮食安全事关每个人的生计,也是全球关注的重大问题。每年由于病虫害的侵染,导致粮食作物产量大量减产,例如由于稻瘟病的侵染导致全世界水稻减产30%。小麦条锈病导致全世界小麦每年减少547万吨产量。
[0003]植物为了抵抗病原物的入侵,进化出了两层免疫系统,第一层是通过细胞膜表面模式识别受体(Pattern

recognition receptors,PRRs)来识别病原相关分子模式(Pathogen

associated molecular patterns,PAMPs)或者是微生物相关分子模式(Microbe

associated molecular patterns,MAMPs),从而触发PTI免疫反应(PAMP

triggered immunity)。第二层免疫防御系统主要是通过细胞内的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种植物抗性蛋白识别方法,其特征在于,包括:获取植物抗性蛋白的序列数据,组成正训练集、负训练集和测试集;提取所述正训练集和所述负训练集中的数据特征;将所有的数据特征进行拼接,获得完整的特征集;结合信息增益和模型准确度特征选择方法进行特征选择,以获取目标特征子集;同时对多种不同的分类模型和多种不同k值组成的k间隔氨基酸对组成信息进行评估,筛选出预设分类模型和预设k值;基于所述目标特征子集,对预设分类模型进行训练;基于所述测试集,对训练后的分类模型进行分类性能测试,直至获得性能满足预设条件的目标分类模型;基于所述目标分类模型,对所述序列数据进行结构域和跨膜蛋白预测,并搭建植物抗性蛋白分类预测器,以用于植物抗性蛋白识别。2.根据权利要求1所述的方法,其特征在于,结合信息增益和模型准确度特征选择方法进行特征选择,以获取目标特征子集,包括:根据信息增益算法对特征重要度进行排序;根据排序后的特征,构建特征矩阵;依次将所述特征矩阵中的特征向量输入训练模型;如果输入的特征向量导致模型准确度降低,则取出该特征向量;如果输入的特征向量导致模型准确度不降低,则保留该特征向量;基于保留的特征向量,生成目标特征子集。3.根据权利要求1所述的方法,其特征在于,获取植物抗性蛋白的序列数据,组成正训练集、负训练集和测试集,包括:判断获取的所述序列数据的格式是否是设定格式;若是设定格式,则取预设字符串加一行的数据作为序列文本数据,并组成正训练集、负训练集和测试集;若不是设定格式,则提示文件错误。4.根据权利要求1所述的方法,其特征在于,获取植物抗性蛋白的序列数据,组成正训练集、负训练集和测试集,包括:判断获取的所述序列数据的内容是否满足预设要求;若满足预设要求,则组成正训练集、负训练集和测试集;若不满足预设要求,则提示文件错误。5.根据权利要求1所述的方法,其特征在于,所述正训练集为经过试验验证的植物抗性蛋白序列文件,所述负训练集为植物非抗性蛋白序列文...

【专利技术属性】
技术研发人员:徐磊王彦苏邹权
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1