【技术实现步骤摘要】
海洋营养成分生物合成途径挖掘方法、装置、设备和介质
[0001]本专利技术属于生物信息学领域,具体地涉及一种海洋营养成分生物合成途径挖掘方法、装置、设备和介质。
技术介绍
[0002]现有技术已经开发了一系列计算方法来自动识别编码跨基因组序列的特定代谢酶的基因集。其中许多方法最初是针对细菌(有时针对真菌和植物)开发的,但所采用的原理可以扩展到其他生命物种。这些方法各自针对不同的分类群,并且将它们扩展到新的分类空间所需的条件亦有所差异。
[0003]从方法策略角度,现有主流方法大多是针对与某类活性化合物相关的生物合成基因簇(biosynthetic gene clusters, BGCs)的识别。BGCs中酶编码基因的物理聚类极大地促进了生物合成途径的识别。尽管BGC在基因含量方面变化很大,并且由于其快速进化和频繁的基因水平转移而通常具有菌株特异性,它们通常确实具有酶家族形式的共同特性,这些酶家族负责催化对整个特定类别的代谢产物的生物合成中至关重要的生化反应。这一特性使得在很大程度上自动化识别基因组中的BGC成为可能。 ...
【技术保护点】
【技术特征摘要】
1.一种海洋营养成分生物合成途径挖掘方法,其特征在于,所述方法的具体步骤如下:第一步、对潜在的基因组数据进行融合DNA形状特征的蛋白质编码区域的预测;第二步、进行目标功能酶的鉴定;第三步、第二步鉴定得到的阳性鉴定结果与生物实验测序得到的宏蛋白质组数据进行对比筛选,得到具有编码蛋白潜力的阳性鉴定样本,利用现有技术将蛋白质序列转换成pdb格式文件;即预测其三维结构以便进行分子动力学模拟与分析;第四步、对其进行基于分子动力学和深度学习相结合的预测模型的酶活性的预测分析,从而进行候选样本的选择与排序。2.根据权利要求1所述一种海洋营养成分生物合成途径挖掘方法,其特征在于,所述的第一步,首先,构建蛋白质编码区域预测相关数据集;从NCBI reference sequences构建相关物种的基因组和转录数据集;其次,从所有生物序列中选择样本并随机打乱作为负样本;使负样本数量等于正样本的数量;最后,将所有样本分成3部分以便进行3倍交叉验证,并从测试数据中去除序列相似度超过50%的样本,以保证测试数据中的每个样本与训练数据中的任何样本的同一性不超过50%;其次,采用深度学习模型实现融合DNA形状信息的序列特征提取;最后,进行蛋白质编码区域标注;给定每个滑动窗口的特征编码向量后,构建深度学习模型来整合序列结构特征、全局序列顺序信息、不重叠的 kmer 特征和标签依赖关系,对于生物序列中的每个位置,首先将当前子序列及其相邻子序列编码为DNA形状信息、C4和gkm编码,然后将DNA形状信息以及 C2 编码为CNN并与gkm合并,最后馈入双向循环神经网络进行蛋白质编码区域预测,再将预测得到的蛋白质编码区序列转换成氨基酸序列。3.根据权利要求1所述一种海洋营养成分生物合成途径挖掘方法,其特征在于,所述的第二步,通过对氨基酸序列与特定底物间的亲和力预测情况来实现目的功能酶的鉴定;方法包括以下三个步骤:(1)预训练ELECTRA模型;首先从PubChem数据库中提取化合物的复合SMILES字符串,从UniProt数据库中提取蛋白质的FASTA序列,分别输入到两个Transformer编码器中,一个充当生成器网络,另一个充当鉴别器网络;分别得到ELECTRA
‑
M模型和ELECTRA
‑
P模型;(2)将从...
【专利技术属性】
技术研发人员:魏志强,刘昊,李阳阳,陈淼,刘其琛,林鹏,
申请(专利权)人:中国海洋大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。