当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于变分神经网络的疾病预测方法及系统技术方案

技术编号:39713075 阅读:6 留言:0更新日期:2023-12-17 23:21
本发明专利技术公开了一种基于变分神经网络的疾病预测方法及系统,该方法包括如下步骤:步骤1:提取样本的

【技术实现步骤摘要】
一种基于变分神经网络的疾病预测方法及系统


[0001]本专利技术涉及一种基于变分神经网络的疾病预测方法及系统,属于疾病预测



技术介绍

[0002]人类肠道微生物群是一个复杂的微生物生态系统,其中的基因组约为
300
万,比人类宿主的基因组大
150


事实上,肠道微生物群通过合成人类基因组无法编码的酶在人体代谢中发挥着重要作用,这些酶可以促进多糖和多酚的分解,促进营养吸收,并提供对病原体的保护

越来越多的研究表明,肠道微生物群的生态失调可能与各种疾病密切相关,特别是那些影响胃肠系统的疾病

为了揭示微生物与人类健康之间的关系,出现了各种组学技术,如宏基因组学

宏转录组学和代谢组学等

每一个都在特定的组学水平上提供了分子机制或生物过程的一种信息

在过去的几年里,越来越多的研究表明,组学数据的组合通常提供了更完整的信息和对微生态学的更好理解,这可以增加人类疾病预测的准确性,提高分析的稳健性,还可以发现重要的生物标志物

值得注意的是,微生物组多组学数据包括各种类型的不同数据,并以其异质性

稀疏性和高维属性而闻名

鉴于这些特点,数据处理需要专门的分析方法,以便于更深入的理解和知识发现

目前高性能机器学习方法在生物领域中受到了相当大的关注,已经开发了大量模型来充分利用多组学信息的潜力

[0003]不完整的组学数据在公开的数据库中很常见,这可归因于各种因素,如有限的资金

伦理考虑和隐私问题,这些因素会影响样本的可用性

这给集成分析带来了巨大的挑战

在这种情况下,可以考虑样本丢弃或均值插补

然而,前者将大大减少可用样本的数量,而后者可能会严重扭曲数据的真实分布

现有的利用不完整的多组学数据进行疾病预测的机器学习算法主要存在两个问题,一是无法有效地从高维组学数据中提取相关特征并过滤掉不相关的特征,二是难以在实现不完整多组学数据的灵活集成的同时充分利用其中信息实现高效预测


技术实现思路

[0004]为解决上述问题,本专利技术提供了一种基于变分神经网络的疾病预测方法及系统,该方法基于变分神经网络,利用不完全肠道多组学数据进行疾病预测,收集人体肠道粪便样本,通过测序和分析技术得到样本的菌群丰度数据

通路数据和代谢物丰度数据,对多组学数据进行预处理,将样本拥有的多组学数据代入到训练好的算法框架中,得出生病的概率值,算法框架的输出结果为两类,即患病

未患病

[0005]一方面,本专利技术提供了一种基于变分神经网络的疾病预测方法,包括如下步骤:
[0006]步骤1:提取样本的
DNA、RNA
和代谢物,将
DNA

RNA
信息扩增成适合高通量测序的文库,利用高通量测序技术得到测序原始数据,对原始数据进行处理后分别进行物种注释和功能注释得到宏基因组的菌群丰度数据和宏转录组的通路数据,通过质谱分析法得到代谢组的代谢物丰度数据;
[0007]步骤2:对多组学数据进行预处理,包括数据转换和归一化处理;
[0008]步骤3:将处理过后的菌群丰度数据

通路数据和代谢物丰度数据代入到训练好的算法框架中,得出生病的概率值,算法框架的输出结果为患病或未患病

[0009]在本专利技术的一种实施方式中,所述步骤2中的数据转换和归一化处理包括如下步骤:
[0010]步骤
2.1
:对数据进行以下转换,以使用神经网络进行合理的分析;
[0011]x

log2(2x+0.00001)
[0012]其中,
x
表示菌群丰度数据;
[0013]步骤
2.2
:若菌群丰度数据已被转换,则对每一种组学数据均进行以下归一化处理:
[0014][0015]其中
x
mean
是该组学数据的平均值,
x
max
是该组学数据中的最大值,
x
min
是该组学数据中的最小值

[0016]在本专利技术的一种实施方式中,所述步骤3中算法框架利用多组学数据得出生病概率值包括如下步骤:
[0017]步骤
3.1
:处理过后的菌群丰度数据

通路数据和代谢物丰度数据编制成三个矩阵,假设代表第
v
个组学数据的矩阵由
n
个样本的
d
v
个特征组成,首先每个矩阵通过训练好的特征选择层进行特征选择,计算过程如下:
[0018]u
v

x
v
·
s
v
[0019]其中是训练后逼近
one

hot
形式的线性变换矩阵,对每个组学数据分别进行特征选择得到
u
v
∈R
n
×
F

[0020]步骤
3.2
:特征选择后的组学数据通过训练好的由全连接层和激活函数组成的编码器,得到每个组学的潜在表示,计算过程如下:
[0021][0022]μ
v
+∈
·
σ
v

z
v
[0023]其中表示多层神经网络的非线性变换过程,

训练网络时从标准正态分布中随机抽样,模型训练完成后

固定为0;先由
u
v
得到潜在表示的均值
μ
v
和方差
σ
v
,再利用重参数化技巧得到每个组学数据的潜在表示
z
v

[0024]步骤
3.3
:通过使用联合组学编码器简单地整合具有任意缺失情况的不完整多组学数据,并获得联合潜在表示
z
,计算过程如下:
[0025][0026][0027]μ
+∈
·
σ

z



N(0

1)
[0028]其中
V
代表样本拥有的组学数量,
μ0和
σ0表示先验分布的均值和方差,

训练网络时从标准正态分布中随机抽样,模型训练完成后

固定为0;由已有的组学数据的均值
μ
v
和方差
σ
v
集成得到联合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于变分神经网络的疾病预测方法,其特征在于,包括如下步骤:步骤1:提取样本的
DNA、RNA
和代谢物,将
DNA

RNA
信息扩增成适合高通量测序的文库,利用高通量测序技术得到测序原始数据,对原始数据进行处理后分别进行物种注释和功能注释得到宏基因组的菌群丰度数据和宏转录组的通路数据,通过质谱分析法得到代谢组的代谢物丰度数据;步骤2:对多组学数据进行预处理,包括数据转换和归一化处理;步骤3:将处理过后的菌群丰度数据

通路数据和代谢物丰度数据代入到训练好的算法框架中,得出生病的概率值,算法框架的输出结果为患病或未患病
。2.
根据权利要求1所述的一种基于变分神经网络的疾病预测方法,其特征在于,所述步骤2中的数据转换和归一化处理包括如下步骤:步骤
2.1
:对数据进行以下转换,以使用神经网络进行合理的分析;
x

log2(2x+0.00001)
其中,
x
表示菌群丰度数据;步骤
2.2
:若菌群丰度数据已被转换,则对每一种组学数据均进行以下归一化处理:其中
x
mean
是该组学数据的平均值,
x
max
是该组学数据中的最大值,
x
min
是该组学数据中的最小值
。3.
根据权利要求2所述的一种基于变分神经网络的疾病预测方法,其特征在于,所述步骤3中算法框架利用多组学数据得出生病概率值包括如下步骤:步骤
3.1
:处理过后的菌群丰度数据

通路数据和代谢物丰度数据编制成三个矩阵,假设代表第
v
个组学数据的矩阵由
n
个样本的
d
v
个特征组成,首先每个矩阵通过训练好的特征选择层进行特征选择,计算过程如下:
u
v

x
v
·
s
v
其中是训练后逼近
one

hot
形式的线性变换矩阵,对每个组学数据分别进行特征选择得到
u
v
∈R
n
×
F
;步骤
3.2
:特征选择后的组学数据通过训练好的由全连接层和激活函数组成的编码器,得到每个组学的潜在表示,计算过程如下:
μ
v
+∈
·
σ
v

z
v
其中表示多层神经网络的非线性变换过程,

训练网络时从标准正态分布中随机抽样,模型训练完成后

固定为0;先由
u
v
得到潜在表示的均值
μ
v
和方差
σ
v
,再利用重参数化技巧得到每个组学数据的潜在表示
z
v
;步骤
3.3
:通过使用联合组学编码器简单地整合具有任意缺失情况的不完整多组学数据,并获得联合潜在表示
z
,计算过程如下:,计算过程如下:
μ
+∈
·
σ

z,∈

N(0,1)
其中
V
代表样本拥有的组学数量,
μ0和
σ0表示先验分布的均值和方差,

训练网络时从标准正态分布中随机抽样,模型训练完成后

固定为0;由已有的组学数据的均值
μ
v
和方差
σ
v
集成得到联合组学均值
μ
和方差
σ
,利用重参数化技巧得到联合组学数据的潜在表示
z
;步骤
3.4
:联合组学数据的潜在表示
z
经过训练好的由全连接层和激活函数组成的联合预测器得出生病概率值计算过程如下:其中
f
ψ
表示多层神经网络的非线性变换过程,基于联合组学数据的潜在表示
z
得到样本是否生病的预测标签
。4.
根据权利要求3所述的一种基于变分神经网络的疾病预测方法,其特征在于,所述算法框架的训练过程包括如下步骤:步骤
S1
:收集健康人群和确诊模型预测目标疾病人群肠道粪便样本,对人群进行人工标记,标记生病人的粪便样本为1和不生病人的粪便样本为0,通过测序和分析技术获取样本对应多组学数据,或者搜集公开数据构建多组学数据库,获取有标签粪便样本的多组学数据;步骤
S2
:对多组学数据进行数据转化和归一化处理;步骤
S3
:将标注的数据集分为训练集与测试集,利用训练集数据对算法框架进行监督训练,并在测试集上进行测试
。5.
根据权利要求4所述的一种基于变分神经网络的疾病预测方法,其特征在于,所述步骤
S3
中算法框架利用训练集数据进行监督训练的一次训练过程包括如下步骤:步骤
S3.1
:训练集的菌群丰度数据

通路数据和代谢物丰度数据编制成三个矩阵,假设代表第
v
个组学数据的矩阵由
n
个样本的
d

【专利技术属性】
技术研发人员:朱金林胡明逸陆文伟王鸿超
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1