【技术实现步骤摘要】
本专利技术涉及生物信息学领域及数据处理,特别是涉及一种基于分层自编码器的环境dna数据降维方法与系统。
技术介绍
1、人类活动影响导致生态系统遭到破坏,生态功能严重退化并影响人类健康,便捷且准确可靠的生态监测技术对保护生态环境至关重要。环境dna技术是一种基于分子的生物多样性高效监测手段,在生态环境修复和自然资源保护方面具有极大的应用潜力。环境dna是从环境样品(水体、土壤、沉积物、空气、混合物等)中提取的dna,是各种生物的dna混合物,通过对环境中的dna进行提取,可以实现对生物多样性进行检测。但是由于环境dna数据的维度大,数据复杂,对获取到的环境dna数据,必须进行降维处理等操作,才能获取到环境dna数据中包含的有用信息。
2、目前对环境dna数据进行降维的方法大部分是一些传统的降维方法,如主成分分析pca、t分布随机邻域嵌入t-sne、非度量多维缩放nmds以及均匀流形逼近umap等。然而不同于其他数据,环境dna数据谱矩阵中分类单元数目远远大于样本数目,且由于测序的技术限制,有很高的概率将非零值判断为零,从而导致
...【技术保护点】
1.一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述将预处理后的环境DNA丰度数据输入深度计数自动编码器DCA进行去噪,得到去噪后的环境DNA丰度数据,包括:
3.根据权利要求2所述的一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述深度计数自动编码器DCA的损失函数是ZINB似然的负对数,具体公式如下:
4.根据权利要求1所述的一种基于分层自编码器的环境DNA数据降维方法,其特征在于,所述为平衡序列长
...【技术特征摘要】
1.一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将预处理后的环境dna丰度数据输入深度计数自动编码器dca进行去噪,得到去噪后的环境dna丰度数据,包括:
3.根据权利要求2所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述深度计数自动编码器dca的损失函数是zinb似然的负对数,具体公式如下:
4.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述为平衡序列长度而填充的核苷酸编码n被翻译为[0.25,0.25,0.25,0.25]。
5.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将代表样本序列信息的三维数组输入自编码器ae,对环境dna序列数据进行压缩,具体为:
【专利技术属性】
技术研发人员:王俊生,郭亚男,宋明珠,王月竹,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。