一种抗菌肽判别器的获取方法技术

技术编号:42243709 阅读:23 留言:0更新日期:2024-08-02 13:54
本发明专利技术公开了一种抗菌肽判别器的获取方法,涉及抗菌肽识别领域,通过公开的抗菌肽数据库构建多个相似度不同的正样本训练集,并基于roberta‑base模型利用通过各正样本训练集获取正样本目标训练集,通过UniProt蛋白质数据库获取多个负样本训练集,并基于roberta‑base模型利用负样本训练集B、C、D、E获取负样本目标训练集;通过多个负样本训练集获取最优分词策略;并基于最优分词策略,在预选负样本训练集上对各预训练模型进行抗菌肽识别和效果预测确定最优模型主体;通过正样本目标训练集与负样本目标训练集训练最优模型主体得到目标模型主体,通过最优分词策略、目标模型主体与输出层构建出抗菌肽判别器,通过抗菌肽判别器实现了对抗菌肽的准确与智能识别。

【技术实现步骤摘要】

本专利技术涉及抗菌肽识别领域,尤其涉及一种抗菌肽判别器的获取方法


技术介绍

1、抗菌肽是多细胞生物为抵抗外界入侵的第一道防线而产生的分子,存在于从原核生物到人类生物体的各种生物中,包括哺乳动物、两栖动物、昆虫、微生物和植物等。抗菌肽通常带正电荷,由10到50个氨基酸残基组成,具有广泛的活性,可以直接杀死细菌、真菌、病毒甚至癌细胞。基于机器学习的抗菌肽识别综合运用数学理论、计算机技术和生物信息学,通过某种方法提取出抗菌肽的序列模式、结构特征以及生化特性等信息,再使用机器学习算法从已有的数据和经验中进行学习,通过推理、归纳或者模型拟合的方式将学习到的规律应用于判断未知序列是否是抗菌肽。机器学习的发展为抗菌肽识别提供了新的工具,研究人员开始结合深度学习的方法来识别抗菌肽,受自然语言处理启发,hamid等人使用跳字模型在蛋白质数据库上训练了静态的氨基酸向量,并使用循环神经网络来获取序列级别的信息,进而将建模结果用于识别抗菌肽。另外,研究者们期望利用大规模肽数据上训练的模型能够学习到训练数据集中隐含的生化性质、二三级结构和功能活性,并将训练得到的模型像语言模型那样本文档来自技高网...

【技术保护点】

1.一种抗菌肽判别器的获取方法,其特征在于,所述抗菌肽判别器包括输入词嵌入层、目标模型主体与输出层;所述输入词嵌入层用于利用最优分词策略获取肽序列对应的固定维度向量;所述模型主体用于对固定维度向量进行特征提取并输出潜在空间特征向量;所述输出层用于对模型主体输出的潜在空间特征向量进行线性变换、归一化与激活函数的处理,并利用处理后的潜在空间特征向量预测输入的肽序列为抗菌肽的概率,所述潜在空间特征向量表示对输入的肽序列建模的潜在特征空间;所述获取方法包括:

2.根据权利要求1所述的一种抗菌肽判别器的获取方法,其特征在于,所述通过Strain-pos获取第一正样本训练集、第二正样本训...

【技术特征摘要】

1.一种抗菌肽判别器的获取方法,其特征在于,所述抗菌肽判别器包括输入词嵌入层、目标模型主体与输出层;所述输入词嵌入层用于利用最优分词策略获取肽序列对应的固定维度向量;所述模型主体用于对固定维度向量进行特征提取并输出潜在空间特征向量;所述输出层用于对模型主体输出的潜在空间特征向量进行线性变换、归一化与激活函数的处理,并利用处理后的潜在空间特征向量预测输入的肽序列为抗菌肽的概率,所述潜在空间特征向量表示对输入的肽序列建模的潜在特征空间;所述获取方法包括:

2.根据权利要求1所述的一种抗菌肽判别器的获取方法,其特征在于,所述通过strain-pos获取第一正样本训练集、第二正样本训练集与第三正样本训练集,具体为:

3.根据权利要求1所述的一种抗菌肽判别器的获取方法,其特征在于,所述通过datasetneg获取负样本测试集stest-neg与负样本训练集e、负样本训练集d、负样本训练集c、负样本训练集b,具体为:

4.根据权利要求1所述的一种抗菌肽判别器的获取方法,其特征在于,所述在负样本训练集a、b和c上验证预设分词策略的效果,具体为:

5.根据权利要求4所述的一种抗菌肽判别器的获取方法...

【专利技术属性】
技术研发人员:文世挺石家豪吴亦初庞超逸高云君
申请(专利权)人:浙大宁波理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1