一种基于可迁移性定量的蛋白质表示学习评估方法及系统技术方案

技术编号:40548512 阅读:32 留言:0更新日期:2024-03-05 19:06
本发明专利技术公开了一种基于可迁移性定量的蛋白质表示学习评估方法及系统,其中评估方法包括:步骤一,模型训练模块采用不同组合的预训练目标来训练多个模型;步骤二,投射模块将特征和标签的联合分布投射到嵌入空间中;步骤三,基于特征和标签信息,评估模块评估预训练蛋白质表示在不同生物学下游任务中的迁移性能。本发明专利技术考虑到生物学任务的复杂性和异质性,能够更准确和高效地预测预训练蛋白质表示在各种生物学下游任务中的性能,大大减少对于耗时的微调过程的需求,能够更为全面和有效地评估和优化预训练蛋白质模型的可迁移性。

【技术实现步骤摘要】

本专利技术属于信息,特别涉及一种基于可迁移性定量的蛋白质表示学习评估方法及系统


技术介绍

1、近年来,自监督预训练语言模型在蛋白质表征学习领域显示出显著的潜力。然而,现有评估蛋白质语言模型性能的方法通常依赖于特定基准数据集的经验评估,可能缺乏全面性和效率。

2、在蛋白质表示学习领域,自监督预训练语言模型通过模仿自然语言处理技术,有效提取蛋白质序列的特征。目前主流的方法遵循“预训练-微调”范式,即先在大规模数据上进行预训练,然后针对下游任务进行微调。然而,预训练与微调过程之间存在差距,导致特定下游任务所需的独特特征可能在预训练阶段没有有效捕获。这种范式可能会影响性能,尤其是在预训练阶段遗漏了最关键信息时。然而,现有的评估方法大多基于特定任务的预测性能,如分类、回归等。这些方法虽然提供了性能的直观理解,但缺乏对模型可迁移性的全面评估。

3、针对蛋白质表征学习,目前已有的方法主要集中在如何有效地将蛋白质的序列或结构数据转换成计算机能够处理的格式,并利用各种机器学习和深度学习技术进行特征提取和性能评估。这些方法的核心在于如何准确、全面地捕本文档来自技高网...

【技术保护点】

1.一种基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,包括:

2.如权利要求1所述的基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,所述步骤一中,模型训练模块采用不同组合的预训练目标来训练多个模型包括:

3.如权利要求1或2所述的基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,所述步骤二中,投射模块利用Wasserstein任务嵌入将特征和标签的联合分布投射到嵌入空间中。

4.如权利要求3所述的基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,所述步骤三包括:

5.如权利要求4所述的基于可迁移性定量的蛋白质表示学习评...

【技术特征摘要】

1.一种基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,包括:

2.如权利要求1所述的基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,所述步骤一中,模型训练模块采用不同组合的预训练目标来训练多个模型包括:

3.如权利要求1或2所述的基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,所述步骤二中,投射模块利用wasserstein任务嵌入将特征和标签的联合分布投射到嵌入空间中。

4.如权利要求3所述的基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,所述步骤三包括:

5.如权利要求4所述的基于可迁移性定量的蛋白质表示学习评估方法,其特征在于,所述步骤三还包括:

6.如权利要求5所述的基于可迁移性定量的蛋白质表示学习...

【专利技术属性】
技术研发人员:胡帆张维鸿殷鹏
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1