当前位置: 首页 > 专利查询>清华大学专利>正文

单细胞生成式预训练基础模型的构建方法及其应用技术

技术编号:41305672 阅读:11 留言:0更新日期:2024-05-13 14:51
本发明专利技术涉及生物信息学技术领域,公开一种单细胞生成式预训练基础模型的构建方法及其应用,包括:得到细胞的基因表达数据和元数据,并利用二元组的形式表示基因表达数据和元数据,得到第一二元组和第二二元组;根据预设任务提示词,将第一二元组和第二二元组进行连接,得到若干携带预设任务提示词的细胞句子;根据携带预设任务提示词的细胞句子,进行生成式建模,利用深度神经网络学习基因之间的表达依赖关系,得到单细胞生成式预训练基础模型。本发明专利技术充分利用元数据,通过生成式建模,利用深度神经网络,实现通用基因调控的理解;利用预设任务提示词对二元组进行有组织的连接、排列,使模型能够通过预设任务提示词独立、高效地完成各项任务。

【技术实现步骤摘要】

本专利技术涉及生物信息学,尤其涉及一种单细胞生成式预训练基础模型的构建方法及其应用


技术介绍

1、细胞的功能和状态上的差异可以由细胞内的基因表达所捕捉,通过将基因表达视作细胞中的语言并进行预训练建模得到单细胞基础模型,可以获得通用的语义信息,并在数据受限的下游任务中进行高效微调。在虚拟药物实验和虚拟基因实验中,单细胞基础模型可以作为实验平台,响应虚拟进行的药物刺激和基因扰动,推动药物研发。

2、但是,现有的单细胞预训练模型存在以下问题:1.核心问题:现有的单细胞预训练模型无法独立执行任何下游任务,需要搭配额外的外接网络执行任务;2.无法建立基础模型:建模计算效率低,通过掩码预测的方式相比于生成式,并行和数据利用率低;3.不兼容元数据,丧失了元数据中涵盖的信息量。

3、因此,亟需一种单细胞生成式预训练基础模型的构建方法,以充分利用元数据,通过生成式构建可以执行多任务的预训练基础模型。


技术实现思路

1、本专利技术提供一种单细胞生成式预训练基础模型的构建方法及其应用,用以解决现有技术缺乏本文档来自技高网...

【技术保护点】

1.一种单细胞生成式预训练基础模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的单细胞生成式预训练基础模型的构建方法,其特征在于,元数据的属性信息包括以下任一项或其任意组合:细胞类型、器官、组织来源、细胞测序技术、细胞贡献者的个人信息;和/或,

3.根据权利要求1或2所述的单细胞生成式预训练基础模型的构建方法,其特征在于,所述根据携带预设任务提示词的细胞句子,进行生成式建模,利用深度神经网络学习基因之间的表达依赖关系,得到单细胞生成式预训练基础模型,包括:

4.根据权利要求3所述的单细胞生成式预训练基础模型的构建方法,其特征在于,单细胞生成式...

【技术特征摘要】

1.一种单细胞生成式预训练基础模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的单细胞生成式预训练基础模型的构建方法,其特征在于,元数据的属性信息包括以下任一项或其任意组合:细胞类型、器官、组织来源、细胞测序技术、细胞贡献者的个人信息;和/或,

3.根据权利要求1或2所述的单细胞生成式预训练基础模型的构建方法,其特征在于,所述根据携带预设任务提示词的细胞句子,进行生成式建模,利用深度神经网络学习基因之间的表达依赖关系,得到单细胞生成式预训练基础模型,包括:

4.根据权利要求3所述的单细胞生成式预训练基础模型的构建方法,其特征在于,单细胞生成式预训练基础模型的建模表达式为:

5.一种单细胞生成式预训练基...

【专利技术属性】
技术研发人员:张学工卞海洋陈奕鑫董晓民魏磊
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1