一种基于分层自编码器的环境DNA数据降维方法与系统技术方案

技术编号:43472531 阅读:13 留言:0更新日期:2024-11-27 13:11
本发明专利技术提供一种基于分层自编码器的环境DNA数据降维方法,属于生物信息学领域及数据处理技术领域。通过步骤:S1、数据预处理:将环境DNA数据划分为环境DNA丰度数据和环境DNA序列数据;S2、环境DNA丰度数据去噪;S3、对环境DNA序列数据进行长度均衡与翻译;S4、对样本的序列信息进行表示;S5、对环境DNA序列数据进行压缩;S6、利用差分自编码器VAE进行降维;将S2得到的所述去噪后的环境DNA丰度数据和S5得到的所述压缩编码后的环境DNA序列数据共同作为差分自编码器VAE的输入,将样本的维度进一步降低到二维潜在空间;S7、绘制二维空间的可视化结果图。实现了更好的保留环境DNA数据的信息,获得更准确的降维及可视化结果。

【技术实现步骤摘要】

本专利技术涉及生物信息学领域及数据处理,特别是涉及一种基于分层自编码器的环境dna数据降维方法与系统。


技术介绍

1、人类活动影响导致生态系统遭到破坏,生态功能严重退化并影响人类健康,便捷且准确可靠的生态监测技术对保护生态环境至关重要。环境dna技术是一种基于分子的生物多样性高效监测手段,在生态环境修复和自然资源保护方面具有极大的应用潜力。环境dna是从环境样品(水体、土壤、沉积物、空气、混合物等)中提取的dna,是各种生物的dna混合物,通过对环境中的dna进行提取,可以实现对生物多样性进行检测。但是由于环境dna数据的维度大,数据复杂,对获取到的环境dna数据,必须进行降维处理等操作,才能获取到环境dna数据中包含的有用信息。

2、目前对环境dna数据进行降维的方法大部分是一些传统的降维方法,如主成分分析pca、t分布随机邻域嵌入t-sne、非度量多维缩放nmds以及均匀流形逼近umap等。然而不同于其他数据,环境dna数据谱矩阵中分类单元数目远远大于样本数目,且由于测序的技术限制,有很高的概率将非零值判断为零,从而导致数据中存在大量假零值本文档来自技高网...

【技术保护点】

1.一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述将预处理后的环境DNA丰度数据输入深度计数自动编码器DCA进行去噪,得到去噪后的环境DNA丰度数据,包括:

3.根据权利要求2所述的一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述深度计数自动编码器DCA的损失函数是ZINB似然的负对数,具体公式如下:

4.根据权利要求1所述的一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述为平衡序列长度而填充的核苷酸编码...

【技术特征摘要】

1.一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将预处理后的环境dna丰度数据输入深度计数自动编码器dca进行去噪,得到去噪后的环境dna丰度数据,包括:

3.根据权利要求2所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述深度计数自动编码器dca的损失函数是zinb似然的负对数,具体公式如下:

4.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述为平衡序列长度而填充的核苷酸编码n被翻译为[0.25,0.25,0.25,0.25]。

5.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将代表样本序列信息的三维数组输入自编码器ae,对环境dna序列数据进行压缩,具体为:

【专利技术属性】
技术研发人员:王俊生郭亚男宋明珠王月竹
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1