【技术实现步骤摘要】
本专利技术涉及生物信息学,尤其涉及一种单细胞生成式预训练基础模型的构建方法及其应用。
技术介绍
1、细胞的功能和状态上的差异可以由细胞内的基因表达所捕捉,通过将基因表达视作细胞中的语言并进行预训练建模得到单细胞基础模型,可以获得通用的语义信息,并在数据受限的下游任务中进行高效微调。在虚拟药物实验和虚拟基因实验中,单细胞基础模型可以作为实验平台,响应虚拟进行的药物刺激和基因扰动,推动药物研发。
2、但是,现有的单细胞预训练模型存在以下问题:1.核心问题:现有的单细胞预训练模型无法独立执行任何下游任务,需要搭配额外的外接网络执行任务;2.无法建立基础模型:建模计算效率低,通过掩码预测的方式相比于生成式,并行和数据利用率低;3.不兼容元数据,丧失了元数据中涵盖的信息量。
3、因此,亟需一种单细胞生成式预训练基础模型的构建方法,以充分利用元数据,通过生成式构建可以执行多任务的预训练基础模型。
技术实现思路
1、本专利技术提供一种单细胞生成式预训练基础模型的构建方法及其应用,
...【技术保护点】
1.一种单细胞生成式预训练基础模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的单细胞生成式预训练基础模型的构建方法,其特征在于,元数据的属性信息包括以下任一项或其任意组合:细胞类型、器官、组织来源、细胞测序技术、细胞贡献者的个人信息;和/或,
3.根据权利要求1或2所述的单细胞生成式预训练基础模型的构建方法,其特征在于,所述根据携带预设任务提示词的细胞句子,进行生成式建模,利用深度神经网络学习基因之间的表达依赖关系,得到单细胞生成式预训练基础模型,包括:
4.根据权利要求3所述的单细胞生成式预训练基础模型的构建方法,其特
...【技术特征摘要】
1.一种单细胞生成式预训练基础模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的单细胞生成式预训练基础模型的构建方法,其特征在于,元数据的属性信息包括以下任一项或其任意组合:细胞类型、器官、组织来源、细胞测序技术、细胞贡献者的个人信息;和/或,
3.根据权利要求1或2所述的单细胞生成式预训练基础模型的构建方法,其特征在于,所述根据携带预设任务提示词的细胞句子,进行生成式建模,利用深度神经网络学习基因之间的表达依赖关系,得到单细胞生成式预训练基础模型,包括:
4.根据权利要求3所述的单细胞生成式预训练基础模型的构建方法,其特征在于,单细胞生成式预训练基础模型的建模表达式为:
5.一种单细胞生成式预训练基...
【专利技术属性】
技术研发人员:张学工,卞海洋,陈奕鑫,董晓民,魏磊,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。