自监督学习模型的训练方法和装置、设备以及存储介质制造方法及图纸

技术编号:27471631 阅读:17 留言:0更新日期:2021-03-02 17:37
本申请公开了一种自监督学习模型的训练方法和装置、设备以及存储介质,该训练方法包括:选择数据信息,数据信息包括蛋白质序列信息;对自监督学习模型设置损失函数;基于蛋白质序列信息对自监督学习模型进行训练,以得到蛋白质的特征信息;基于损失函数调整自监督学习模型的参数。上述方案,基于蛋白质序列信息对自监督学习模型进行训练,能够充分学习蛋白质序列信息;调整自监督学习模型的参数,提高了模型的准确率。了模型的准确率。了模型的准确率。

【技术实现步骤摘要】
自监督学习模型的训练方法和装置、设备以及存储介质


[0001]本申请涉及人工智能
,特别是涉及一种自监督学习模型的训练方法和装置、设备以及存储介质。

技术介绍

[0002]蛋白质对于生物的运转必不可少,除了是基本维生物质的需求,还包括各种抗体和疫苗以及多功能的酶。理解蛋白质的结构和损坏机理不仅能够让我们对疾病的分子学机理有着更好的了解,更能帮助我们找到更好的方式对抗疾病。
[0003]一般地,直接使用随机初始化模型的参数进行监督模型的训练,无法预先学习蛋白质序列的特征信息,导致准确率低。

技术实现思路

[0004]本申请至少提供一种自监督学习模型的训练方法和装置、设备以及存储介质。
[0005]本申请第一方面提供了一种自监督学习模型的训练方法,包括:
[0006]选择数据信息,所述数据信息包括蛋白质序列信息;
[0007]对所述自监督学习模型设置损失函数;
[0008]基于所述蛋白质序列信息对所述自监督学习模型进行训练,以得到蛋白质的特征信息;
[0009]基于所述损失函数调整所述自监督学习模型的参数。
[0010]因此,本申请基于蛋白质序列信息对自监督学习模型进行训练,充分学习蛋白质序列信息,并基于损失函数调整自监督学习模型的参数,提高模型的准确率。
[0011]在一些实施例中,所述对所述自监督学习模型设置损失函数,包括:
[0012]基于所述蛋白质序列信息,通过所述自监督学习模型预测目标蛋白质序列信息的损失,得到第一损失函数;
[0013]对所述蛋白质序列信息进行部分遮盖,基于未遮盖的所述蛋白质序列信息,通过所述自监督学习模型进行预测被遮盖的所述蛋白质序列信息的损失,得到第二损失函数。
[0014]在一些实施例中,所述基于所述损失函数调整所述自监督学习模型的参数,包括:
[0015]预设有第一参数和第二参数,所述第一参数大于等于0且小于或等于1,所述第二参数大于等于0且小于或等于1;
[0016]计算所述第一损失函数和所述第一参数的乘积与所述第二损失函数和所述第二参数的乘积之和,得到最终的损失函数;
[0017]基于所述最终的损失函数,调整所述自监督学习模型的参数。
[0018]因此,基于第一损失函数和第一参数的乘积与第二损失函数和第二参数的乘积之和得到最终的损失函数,最终的损失函数越小,自监督学习模型的准确率越高。
[0019]在一些实施例中,所述基于所述蛋白质序列信息对所述自监督学习模型进行训练,包括:
[0020]从所述蛋白质序列信息中选取第一预设比例的所述蛋白质序列信息,作为训练集;
[0021]基于所述训练集对所述自监督学习模型进行训练。
[0022]在一些实施例中,所述方法还包括:
[0023]将所述蛋白质序列信息中剩余的蛋白质序列信息,作为测试集;
[0024]基于所述测试集对所述自监督学习模型进行测试,以评估所述自监督学习模型的准确率。
[0025]在一些实施例中,所述数据信息还包括多个子任务的标签信息,所述方法还包括:
[0026]基于所述子任务的标签信息和对应的所述蛋白质的特征信息,通过调整后的自监督学习模型预测所述子任务;
[0027]所述子任务包括蛋白质二级结构的预测、荧光蛋白质强度预测、蛋白质中三维结构中序列的接触预测、远程同源性检测或蛋白质结构稳定性预测中的至少一个。
[0028]因此,本申请通过调整后的自监督学习模型预测子任务,即调整后的自监督学习模型应用到子任务,实现迁移学习,提高了模型的准确率。
[0029]在一些实施例中,所述方法还包括:
[0030]基于所述自监督学习模型和调整后的自监督学习模型,对所述子任务分别进行测试,得到第一测试数据和第二测试数据;
[0031]基于所述第一测试数据和所述第二测试数据,评估所述自监督学习模型和所述调整后的自监督学习模型的性能。
[0032]因此,本申请通过两个模型分别对子任务进行测试,以评估自监督学习模型和调整后的自监督学习模型的性能。
[0033]在一些实施例中,所述选择数据信息,包括:
[0034]判断所述数据信息的整行或整列的缺失比例是否超过第二预设比例;
[0035]若是,则删除所述数据信息的整行或者整列;
[0036]若否,则补充所述数据信息的缺失值。
[0037]因此,本申请对数据信息进行缺失值处理,提高准确率。
[0038]本申请第二方面提供了一种自监督学习模型的训练装置,包括:
[0039]选择模块,用于选择数据信息,所述数据信息包括蛋白质序列信息;
[0040]设置模块,用于对所述自监督学习模型设置损失函数;
[0041]训练模块,用于基于所述蛋白质序列信息对所述自监督学习模型进行训练,以得到蛋白质的特征信息;
[0042]参数调整模块,用于基于所述损失函数调整所述自监督学习模型的参数。
[0043]本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的自监督学习模型的训练方法。
[0044]本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的自监督学习模型的训练方法。
[0045]上述方案,基于蛋白质序列信息对自监督学习模型进行训练,充分学习蛋白质序列信息;基于损失函数调整自监督学习模型的参数,提高模型的准确率。
[0046]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
[0047]此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
[0048]图1是本申请自监督学习模型的训练方法一实施例的流程示意图;
[0049]图2是图1中步骤S11的流程示意图;
[0050]图3是图1中步骤S12的流程示意图;
[0051]图4是图1中步骤S13的流程示意图;
[0052]图5是图1中步骤S14的流程示意图;
[0053]图6是本申请自监督学习模型的训练方法另一实施例的流程示意图;
[0054]图7是本申请自监督学习模型的训练方法又一实施例的流程示意图;
[0055]图8是本申请自监督学习模型的训练装置一实施例的框架示意图;
[0056]图9是本申请电子设备一实施例的框架示意图;
[0057]图10是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0058]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0059]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自监督学习模型的训练方法,其特征在于,包括:选择数据信息,所述数据信息包括蛋白质序列信息;对所述自监督学习模型设置损失函数;基于所述蛋白质序列信息对所述自监督学习模型进行训练,以得到蛋白质的特征信息;基于所述损失函数调整所述自监督学习模型的参数。2.根据权利要求1所述的方法,其特征在于,所述对所述自监督学习模型设置损失函数,包括:基于所述蛋白质序列信息,通过所述自监督学习模型预测目标蛋白质序列信息的损失,得到第一损失函数;对所述蛋白质序列信息进行部分遮盖,基于未遮盖的所述蛋白质序列信息,通过所述自监督学习模型进行预测被遮盖的所述蛋白质序列信息的损失,得到第二损失函数。3.根据权利要求2所述的方法,其特征在于,所述基于所述损失函数调整所述自监督学习模型的参数,包括:预设有第一参数和第二参数,所述第一参数大于等于0且小于或等于1,所述第二参数大于等于0且小于或等于1;计算所述第一损失函数和所述第一参数的乘积与所述第二损失函数和所述第二参数的乘积之和,得到最终的损失函数;基于所述最终的损失函数,调整所述自监督学习模型的参数。4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述蛋白质序列信息对所述自监督学习模型进行训练,包括:从所述蛋白质序列信息中选取第一预设比例的所述蛋白质序列信息,作为训练集;基于所述训练集对所述自监督学习模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所述蛋白质序列信息中剩余的蛋白质序列信息,作为测试集;基于所述测试集对所述自监督学习模型进行测试,以评估所述自监督学习模型的准确率。6.根据权利要求1-3任一项所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:张捷
申请(专利权)人:上海商汤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1