蛋白质训练模型的训练方法及装置、电子设备和存储介质制造方法及图纸

技术编号：34533147 阅读：24 留言：0更新日期：2022-08-13 21:26

本公开公开了蛋白质训练模型的训练方法及装置、电子设备和存储介质，涉及数据处理技术领域，主要技术方案包括：将蛋白质数据输入预训练模型，其中，所述蛋白质数据为未标记的蛋白质数据，基于所述预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列，基于所述预训练模型对所述预训练用蛋白质序列进行训练，以获取所述预训练模型输出至少一种蛋白质预测任务。与相关技术相比，基于预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列，并基于预训练用蛋白质序列进行训练，实现对蛋白质的结构和/或性质的高效预测。实现对蛋白质的结构和/或性质的高效预测。实现对蛋白质的结构和/或性质的高效预测。

全部详细技术资料下载

【技术实现步骤摘要】
蛋白质训练模型的训练方法及装置、电子设备和存储介质

[0001]本公开涉及数据处理
，尤其涉及一种蛋白质训练模型的训练方法及装置、电子设备和存储介质。

技术介绍

[0002]蛋白质是生命体不可缺少的组成部分，是生物催化(如淀粉酶)、运输(如血红蛋白)、免疫(如抗体)、运动(如肌动蛋白)等一系列生命活动的承担者。蛋白质结构、性质信息的对生命科学的研究至关重要。传统的测量方法基于湿实验进行，对人力和物力要求高，而且测量周期较长。高通量测序技术的出现，使得蛋白质序列数据呈现爆发式增长。由于蛋白质序列和文本序列的相似性，研究人员使用自然语言处理模型来建模蛋白质序列，并且在蛋白质性质、结构预测方面取得了不错的表现。自然语言处理领域的大规模预训练模型，在自然语言处理的下游任务上取得了优异的表现，说明在合理的训练条件下，随着规模的增长，大规模预训练模型仍然可收敛，并取得更加优异的表现。同样，扩大蛋白质语言模型的规模，也可以提高模型建模蛋白质序列的能力。
[0003]传统的蛋白质结构的分析范式是实验性的，经典方法包括X射线晶体...

【技术保护点】

【技术特征摘要】
1.一种蛋白质训练模型的训练方法，其特征在于，包括：将蛋白质数据输入预训练模型；其中，所述蛋白质数据为未标记的蛋白质数据；基于所述预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列；基于所述预训练模型对所述预训练用蛋白质序列进行训练，以获取所述预训练模型输出至少一种蛋白质预测任务。2.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：基于带标记的样本蛋白质序列，对所述预训练模型输出的至少一种蛋白质预测任务进行调整。3.根据权利要求1所述的训练方法，其特征在于，所述基于所述预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列包括：若确定预训练用蛋白质序列的长度存在差异，则使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列；确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度；若是，则停止预训练用蛋白质序列的拼接，并根据预训练用蛋白质序列的顺序，添加预设填充符，使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。4.根据权利要求1所述的训练方法，其特征在于，所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。5.根据权利要求1
‑
4中任一项所述的训练方法，其特征在于，所述预训练模型的损失函数采用掩码语言模型损失函数；所述预训练模型为多序列预训练模型。6.一种蛋白质训练模型的训练装置，其特征在于，包括：输入单元，用于将蛋白质数据输入预训练模型；其中，所述蛋白质数据为未标记的蛋白质数据；拼接单元，用于基于所述预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列；训练单元，用于基于所述预训练模型对所述预训练用蛋白质序列进行训练，以获取所述预训练模型输出至少一种蛋白质预测任务。7.根据权利要求6所述的训练装置，其特征在于，所述...

【专利技术属性】
技术研发人员：唐杰，肖易佳，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人