基于深度学习和迁移算法的动态组学数据分类方法及系统技术方案

技术编号：39970681 阅读：10 留言：0更新日期：2024-01-09 00:45

本发明专利技术公开一种基于深度学习和迁移算法的动态组学数据分类方法及系统，涉及数据分类预测领域，该方法包括：利用数据集训练分类网络并融入先验的生物学信息得到初始分类模型；判断数据集与目标疾病样本集之间的分布是否满足设定相似性条件；若否则利用迁移成分分析方法确定所述目标疾病样本集映射到所述数据集的特征映射，特征映射后的目标疾病样本集和数据集满足设定相似性条件，利用迁移算法将所述初始分类模型中编码层的参数迁移到目标网络的通用特征层，并采用特征映射后的目标疾病样本集训练目标网络的目标特定特征层得到分类预测模型；利用所述分类预测模型对疾病数据进行分类。本发明专利技术能够在小样本的情况下提高动态组学数据的分类准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据分类，特别是涉及一种基于深度学习和迁移算法的动态组学数据分类方法及系统。

技术介绍

1、疾病进展在体内的生物学改变是一个动态连续过程，可通过监测动态多时间生物标志物的情况来监测疾病的进展。因此，涌现出很多动态高维组学数据。目前国际上的高维动态组学数据分析方法从广义上主要分为三类：数学模型(确定性与随机性)、统计模型(频率论与贝叶斯方法)和机器学习(深度学习)。

2、基于微分方程的确定性方法在遗传、生化和免疫网络数据研究中广泛应用，主要包括遗传算法和线性规划。其在分析具有时序效应的变量时，通常把生物学参数设为固定值，并未考虑概率和不确定性。随机性方法把时间效应观测变化看作随机过程，主要包括高斯方法、马尔科夫方法和点方法。此类方法考虑了模型中的时间信息，但不能够验证其在模型构建过程中假设的正确性。

3、统计学建模算法分析动态组学数据需要考虑数据是否平衡、测量时间点间隔是否均匀以及观察指标和结局的种类(连续、离散、有序、二分类)。主要包括经典频率推理方法、贝叶斯模型和将两者结合的混合模型。其中曲线拟合、广义估计方程和混合效应模型可用于动态组学数据分析。这些方法不仅能够对非线性相关的变量进行建模，也能够处理时间点不均匀的数据，拟合效果较好，但建模预测时会导致过拟合。动态贝叶斯网络是贝叶斯网络在时序过程建模方面的扩展，能很好地处理多个变量及各变量间的依赖关系。但对于既往有结局但信息不全的数据进行分析建模时，由于关键数据的缺失会影响其评估性能。

4、机器学习的动态组学分析方法主要包括两大

5、深度学习算法需要较大的样本量进行训练学习来实现算法的高性能，这在医学组学数据研究领域存在局限性。当存在多个时间点数据时，循环神经网络的短时记忆特点，不能长时间保留各时间点重要信息，导致信息损失。此外，传统模型构建方法通常要求训练和测试数据服从相同的分布，当训练和测试数据分布不同时，限制了其应用。

技术实现思路

1、本专利技术的目的是提供一种基于深度学习和迁移算法的动态组学数据分类方法及系统，能够在小样本的情况下提高动态组学数据的分类准确度。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种基于深度学习和迁移算法的动态组学数据分类方法，包括：

4、利用数据集训练分类网络，得到初始分类模型；所述分类网络包括依次连接的第一神经网络和第二神经网络，所述第一神经网络用于利用先验的生物学知识对数据集中动态转录组学数据进行分组，得到分组数据；基于约束信息，利用所述分组数据，采用反向传播算法求解重叠变量在各个分组数据中的权重值，得到带有先验生物学信息的重构数据；所述第二神经网络用于结合长短期记忆方法输出所述重构数据的解码数据；所述第二神经网络包括编码层和解码层；

5、判断数据集与目标疾病样本集之间的分布相似性是否满足设定相似性条件；所述目标疾病样本集中数据为动态转录组学数据；

6、若分布相似性满足设定相似性条件，则利用迁移算法将所述初始分类模型中编码层的参数迁移到目标网络的通用特征层，并采用目标疾病样本集训练目标网络的目标特定特征层，得到分类预测模型；

7、若分布相似性不满足设定相似性条件，则利用迁移成分分析方法确定所述目标疾病样本集映射到所述数据集的特征映射，特征映射后的目标疾病样本集和数据集满足设定相似性条件，利用迁移算法将所述初始分类模型中编码层的参数迁移到目标网络的通用特征层，并采用特征映射后的目标疾病样本集训练目标网络的目标特定特征层，得到分类预测模型；

8、利用所述分类预测模型对待分类疾病数据进行分类，得到分类结果；所述待分类疾病数据为转录组学数据。

9、可选地，所述目标疾病样本集中样本数据为携带标签数据的动态转录组学数据。

10、可选地，判断数据集与目标疾病样本集之间的分布相似性是否满足设定相似性条件，具体包括：

11、采用最大均值差异计算数据集与目标疾病样本集之间的距离；所述设定相似性条件为数据集与目标疾病样本集之间的距离小于距离阈值。

12、可选地，利用所述分类预测模型对待分类疾病数据进行分类，具体包括：

13、当分类预测模型为采用特征映射后的目标疾病样本集训练目标网络的目标特定特征层，得到的分类预测模型时，将待分类疾病数据进行特征映射，将特征映射后的待分类疾病数据输入所述分类预测模型，得到分类结果。

14、可选地，所述分类结果为产生耐药性或者没有产生耐药性。

15、本专利技术公开了一种基于深度学习和迁移算法的动态组学数据分类系统，包括：

16、初始训练模块，用于利用数据集训练分类网络，得到初始分类模型；所述分类网络包括依次连接的第一神经网络和第二神经网络，所述第一神经网络用于利用先验的生物学知识对数据集中动态转录组学数据进行分组，得到分组数据；基于约束信息，利用所述分组数据，采用反向传播算法求解重叠变量在各个分组数据中的权重值，得到带有先验生物学信息的重构数据；所述第二神经网络用于结合长短期记忆方法输出所述重构数据的解码数据；所述第二神经网络包括编码层和解码层；

17、分布相似性判断模块，用于判断数据集与目标疾病样本集之间的分布相似性是否满足设定相似性条件；所述目标疾病样本集中数据为动态转录组学数据；

18、第一目标网络训练模块，用于若分布相似性满足设定相似性条件，则利用迁移算法将所述初始分类模型中编码层的参数迁移到目标网络的通用特征层，并采用目标疾病样本集训练目标网络的目标特定特征层，得到分类预测模型；

19、第二目标网络训练模块，用于若分布相似性不满足设定相似性条件，则利用迁移成分分析方法确定所述目标疾病样本集映射到所述数据集的特征映射，特征映射后的目标疾病样本集和数据集满足设定相似性条件，利用迁移算法将所述初始分类模型中编码层的参数迁移到目标网络的通用特征层，并采用特征映射后的目标疾病样本集训练目标网络的目标特定特征层，得到分类预测模型；

20、分类预测模型应用模块，用于利用所述分类预测模型对待分类疾病数据进行分类，得到分类结果；所述待分类疾病数据为转录组学数据。

21、根据本专利技术提供的具体实施例，本专利技术本文档来自技高网...

【技术保护点】

1.一种基于深度学习和迁移算法的动态组学数据分类方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习和迁移算法的动态组学数据分类方法，其特征在于，所述目标疾病样本集中样本数据为携带标签数据的动态转录组学数据。

3.根据权利要求1所述的基于深度学习和迁移算法的动态组学数据分类方法，其特征在于，判断数据集与目标疾病样本集之间的分布相似性是否满足设定相似性条件，具体包括：

4.根据权利要求1所述的基于深度学习和迁移算法的动态组学数据分类方法，其特征在于，利用所述分类预测模型对待分类疾病数据进行分类，具体包括：

5.根据权利要求1所述的基于深度学习和迁移算法的动态组学数据分类方法，其特征在于，所述分类结果为产生耐药性或者没有产生耐药性。

6.一种基于深度学习和迁移算法的动态组学数据分类系统，其特征在于，包括：

【技术特征摘要】

1.一种基于深度学习和迁移算法的动态组学数据分类方法，其特征在于，包括：

3.根据权利要求1所述的基于深度学习和迁移算法的动态组学数据分类方法，其特征在于，判断数据集与目标疾病样本集之间的分布相似性是否满足设定相似性条件...

【专利技术属性】
技术研发人员：谢宏宇，李晓，王文杰，王丹云，羊柳，
申请(专利权)人：浙江大学医学院附属妇产科医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人