当前位置: 首页 > 专利查询>龙岩学院专利>正文

一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法技术

技术编号:46068055 阅读:8 留言:0更新日期:2025-08-11 15:56
本发明专利技术涉及细胞数据分析技术领域,公开了一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,包括:获取单细胞RNA测序表达矩阵与对应的细胞文本描述,对单细胞RNA测序表达矩阵与对应的细胞文本描述进行预处理,构建多模态数据集,通过构建双模型与跨模态投射模块,实现了基因表达数据与文本知识的深度融合,避免了单一模态的局限,预处理时保留基因表达值与索引序列,改变了粗糙编码方式,提升了细胞类型识别准确率,基于对比学习、匹配学习及跨模态投射模块的预训练策略,实现了细粒度的跨模态信息交互与共享,优化了文本生成细胞或细胞生成文本等跨模态任务效果。

【技术实现步骤摘要】

本专利技术涉及细胞数据分析,具体涉及一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法


技术介绍

1、随着单细胞rna测序(scrna-seq)技术的迅速发展,科研人员可以在单细胞分辨率下精确测量每个细胞的基因表达谱,这类高通量数据为揭示细胞功能异质性、生物学过程以及疾病机制提供了关键信息,然而,如何高效地理解和解释海量的单细胞表达数据,仍然是当前生物信息学领域面临的重大挑战。

2、为解决这一问题,近年来兴起的单模态预训练语言模型(plm)在文本生成与理解、图像识别、基因序列建模等多个方向取得了显著成果,目前虽然将plm应用于单细胞分析任务,如细胞类型注释、伪细胞生成等,但仍存在诸多局限,具体如下:

3、1、当前大多数方法仅能处理单一模态数据(如文本或表达矩阵),缺乏有效的机制来融合文本知识与细胞表达数据,这限制了模型对细胞功能、状态和分类的深度理解与泛化能力;

4、2、目前在尝试将表达数据转换为“细胞句子”文本时,仅保留了非常少的基因信息,导致完全丢弃了表达值,这种粗糙的编码方式导致细胞类型识别准确率显著本文档来自技高网...

【技术保护点】

1.一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,对单细胞RNA测序表达矩阵与对应的细胞文本描述进行预处理,构建多模态数据集,包括:

3.根据权利要求2所述的一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,基于多模态数据集,构建双模型,包括:

4.根据权利要求3所述的一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,基于多模态数据集,构建双模型,还包括:

<...

【技术特征摘要】

1.一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,对单细胞rna测序表达矩阵与对应的细胞文本描述进行预处理,构建多模态数据集,包括:

3.根据权利要求2所述的一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,基于多模态数据集,构建双模型,包括:

4.根据权利要求3所述的一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,基于多模态数据集,构建双模型,还包括:

5.根据权利要求4所述的一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,基于多模态数据集,构建跨模态投射模块,包括:

6.根据权利要求5所述的一种基于多模态语言模...

【专利技术属性】
技术研发人员:赖永明刘谦陈旭曾志文
申请(专利权)人:龙岩学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1