一种基于归一化流理论的跨模态数据迁移方法技术

技术编号:37308899 阅读:9 留言:0更新日期:2023-04-21 22:52
本发明专利技术公开了一种归一化流理论的跨模态数据迁移方法,属于机器学习领域。该方法采用两阶段优化方法,在第一阶段的训练过程中,分别针对每个单细胞数据域单独设计一个基于归一化流的分布估计模块,将指定数据域特有的、复杂的数据分布一一映射到达隐空间中相对简单的数据分布;在第二阶段的训练过程中,针对特定的2个数据域,设计另外一个基于归一化流的模态迁移模块,在不同模态对应的隐空间中实现基于模态特征的单细胞跨模态数据迁移任务。本发明专利技术摆脱了常见的单细胞跨模态数据迁移算法需要成对数据进行训练的瓶颈,从而能够适用于多样化的单细胞跨模态数据迁移需求。于多样化的单细胞跨模态数据迁移需求。于多样化的单细胞跨模态数据迁移需求。

【技术实现步骤摘要】
一种基于归一化流理论的跨模态数据迁移方法


[0001]本专利技术涉及机器学习领域,具体来说涉及跨模态数据迁移领域,更具体地说,涉及一种基于归一化流框架的跨模态数据迁移方法。

技术介绍

[0002]单细胞技术的发展为从多个不同角度精确表征并分析细胞内的基因调控情况提供了可能,然而,标准单细胞技术也存在显著的局限性,那就是通常每次只能采用一种测量方式(如RNA测序、染色质可及性测量、甲基化观测、蛋白质组学测量等诸多单细胞技术中的某一种)来对给定的细胞进行观测与分析,进而失去了从不同模态、不同的层次来进行单细胞基因调控分析与表征的能力。
[0003]多模态分析能够联合分析同一细胞内的多种模态,进而达到获得并分析单细胞内不同阶段、不同层次情况下的单细胞基因调控如何相互作用的关键信息。然而,同时获得同一细胞内的多种模态面临着观测手段不同会互相引入误差、不同层次的生物分子观测存在干扰、同时开展多项观测会引入额外的较大观测误差、联合观测成本高昂等问题与难点。
[0004]因此如何获得相对准确的单细胞多模态数据成为一项亟待解决的难题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于归一化流理论的跨模态数据迁移方法,用于解决
技术介绍
中存在的技术问题。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种基于归一化流理论的跨模态数据迁移方法,包括以下步骤:
[0008]获取单细胞观测的不同模态数据,并构建不同模态数据对应的数据域;所述不同模态数据来自同一组织或群体的不同单细胞,包括第一模态数据和第二模态数据;
[0009]分别构建不同数据域对应的分布估计模块和隐空间,
[0010]所述分布估计模块用于将每个数据域的真实样本分布和对应隐空间的概率分布进行一一映射变换;
[0011]并将所述隐空间划分为跨模态共享子空间和自身模态特异子空间,所述跨模态共享子空间中的样本数据服从标准正态分布,所述自身模态特异子空间中的样本数据服从可变参量的正态分布;
[0012]构建不同分布估计模块的负似然函数,采用随机梯度下降算法,以负似然函数最小化为目标对分布估计模块进行优化,获取优化后的分布估计模块;
[0013]构建跨模态数据迁移模块,所述跨模态数据迁移模块用于输入第一模态隐变量和第二模态辅助隐变量,输出满足第二模态隐变量概率分布的样本数据和满足第一模态辅助隐变量概率分布的样本数据;
[0014]其中,所述第一模态隐变量为第一模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;
[0015]所述第二模态辅助隐变量为第二模态数据域对应的自身模态特异子空间中的采样数据;
[0016]所述第二模态隐变量为第二模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;
[0017]所述第一模态辅助隐变量为第一模态数据域对应的自身模态特异子空间中的采样数据;
[0018]对跨模态数据迁移模块中的可学习参数进行优化,获取优化后的跨模态数据迁移模块;
[0019]利用优化后的分布估计模块和优化后的跨模态数据迁移模块完成不同模态数据的数据迁移。
[0020]优选的,所述分布估计模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。
[0021]优选的,所述跨模态数据迁移模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。
[0022]优选的,所述第一模态数据包括RNA测序模态数据,所述第二模态数据包括染色质可及性测序模态数据。
[0023]优选的,构建不同分布估计模块的负似然函数,具体包括:
[0024]构建RNA测序模态数据分布估计模块的负似然函数:式中,表示RNA测序模态数据分布估计模块中的可学习参数,u
r
与σ
r
表示RNA测序模态数据自身模态特异子空间所服从分布的可变参量,x
r
表示RNA测序模态数据域中的样本,P
rna
(x
r
)表示RNA测序模态数据域中的样本的真实概率分布函数,表示RNA测序模态数据隐空间对应点的概率密度函数,F
rna
()表示RNA测序模态数据分布估计函数;
[0025]构建染色质可及性测序模态数据分布估计模块的负似然函数:式中,表示染色质可及性测序模态数据分布估计模块中的可学习参数,u
a
与σ
a
表示染色质可及性测序模态数据自身模态特异子空间所服从分布的可变参量,x
a
表示染色质可及性测序模态数据域中的样本,P
atac
(x
a
)表示染色质可及性测序模态数据域中的样本的真实概率分布函数,表示染色质可及性测序模态数据隐空间对应点的概率密度函数,F
atac
()表示染色质可及性测序模态数据分布估计函数。
[0026]优选的,对跨模态数据迁移模块中的可学习参数进行优化,具体包括以下步骤:
[0027]冻结RNA测序模态数据分布估计模块F
rna
和染色质可及性测序模态数据分布估计模块F
atac
中的可学习参数保持不变;
[0028]建立跨模态数据迁移模块T的优化目标函数:式中,Θ
T
表示跨模态数据迁移模块T中的可学习参数;
[0029]采用随机梯度下降方法对优化目标函数中的可学习参数Θ
T
进行优化:
[0030]式中,表示迁移后满足染色质可及性测序模态隐变量概率分布的样本数据,表示迁移后获得的满足RNA测序模态辅助隐变量概率分布的样本数据;表示迁移生成的染色质可及性测序模态数据中的样本数据;
[0031]式中,表示迁移后满足RNA测序模态隐变量概率分布的样本数据,表示迁移后获得的满足染色质可及性测序模态辅助隐变量概率分布的样本数据;表示迁移生成的RNA测序模态数据中的样本数据。
[0032]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于归一化流理论的跨模态数据迁移方法,具有以下有益效果:
[0033]1、本专利基于归一化流理论为每一个不同模态的观测数据设计一个分布估计模块,通过训练来获得能够输出给定数据在所属分布中概率密度的估计值,进而实现在后续跨模态迁移任务中不再需要成对的数据作为指导,摆脱了常见的单细胞跨模态数据迁移算法需要成对数据进行训练的瓶颈,从而能够适用于多样化的单细胞跨模态数据迁移需求;
[0034]2、本专利方法中采用的网络结构完全是基于可逆神经网络单元来实现的,因此能够直接利用似然函数进行优化,训练过程更加稳定,且能够达到全局最优。
[0035]3、本专利中隐空间跨模态迁移模块具有双向可逆生成的特点,一旦优化完成即可实现双向的跨模态数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于归一化流理论的跨模态数据迁移方法,其特征在于,所述方法包括以下步骤:获取单细胞观测的不同模态数据,并构建不同模态数据对应的数据域;所述不同模态数据来自同一组织或群体的不同单细胞,包括第一模态数据和第二模态数据;分别构建不同数据域对应的分布估计模块和隐空间,所述分布估计模块用于将不同数据域的真实样本分布和对应隐空间的概率分布进行一一映射变换;并将所述隐空间划分为跨模态共享子空间和自身模态特异子空间,所述跨模态共享子空间中的样本数据服从标准正态分布,所述自身模态特异子空间中的样本数据服从可变参量的正态分布;构建不同分布估计模块的负似然函数,采用随机梯度下降算法,以负似然函数最小化为目标分别对不同分布估计模块进行优化,获取优化后的分布估计模块;构建跨模态数据迁移模块,所述跨模态数据迁移模块输入第一模态隐变量和第二模态辅助隐变量,输出满足第二模态隐变量概率分布的样本数据和满足第一模态辅助隐变量概率分布的样本数据;其中,所述第一模态隐变量为第一模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;所述第二模态辅助隐变量为第二模态数据域对应的自身模态特异子空间中的采样数据;所述第二模态隐变量为第二模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;所述第一模态辅助隐变量为第一模态数据域对应的自身模态特异子空间中的采样数据;对跨模态数据迁移模块中的可学习参数进行优化,获取优化后的跨模态数据迁移模块;利用优化后的分布估计模块和优化后的跨模态数据迁移模块完成不同模态数据的迁移。2.根据权利要求1所述的基于归一化流理论的跨模态数据迁移方法,其特征在于,所述分布估计模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。3.根据权利要求1所述的基于归一化流理论的跨模态数据迁移方法,其特征在于,所述跨模态数据迁移模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。4.根据权利要求1所述的基于归一化流理论的跨模态数据迁移方法,其特征在于,所述第一模态数据包括RNA测序模态数据,所述第二模态数据包括染色质可及性测序模态数据。5.根据权利要求4所述的基于归一化流理论的跨模态数据迁移方法,其特征在于,构建不同分布估计模块的负似然函数,具体包括:构建RNA测序模态数据分布估计模...

【专利技术属性】
技术研发人员:邓岳刘少华
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1