【技术实现步骤摘要】
本专利技术涉及生物信息学元基因组分箱,具体为一种基于视图增强的图嵌入元基因组分箱方法及系统。
技术介绍
1、提高元基因组分箱方法的关键在于从复杂的微生物群落中确定哪些dna序列来自同一微生物基因组,为了解决这个问题,已经开发了各种元基因组分箱方法,其中一些方法利用了组成和丰度特征来对基因组进行分类,例如metabat2和maxbin2,即利用特征计算序列之间的相似性,但这些方法通常需要复杂的设计和架构,对于处理复杂样品时可能会出现误差,随后,一些基于深度学习的方法也被引入了元基因组学领域,其中一些方法利用了图神经网络(gnns)来改进分箱,例如lamurias等人拓展了以前的方法,即使用变分自编码器(vae)根据组成和丰度特征为每个contig生成初级嵌入,然后利用gnn将初级嵌入及组装图结构信息整合在一起,有效地将元基因组分箱任务转化为嵌入学习问题。
2、虽然现有的基于深度学习与图数据相结合的方法有效地提高了元基因组分箱的准确性和效率,但是却忽视了图数据节点存在的重要信息,而最新的研究表明图数据自监督学习引入基于典范相关分
...【技术保护点】
1.一种基于视图增强的图嵌入元基因组分箱方法,其特征在于,包括:
2.如权利要求1所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述预先计算组成和丰度特征包括从FASTA文件中获取的组成特征的矩阵Tin,从BAM文件中获取的丰度特征的矩阵Ain,使用Flye对FASTA文件进行读取,生成由重叠群C和邻接矩阵A构成的图数据G=(C,A)。
3.如权利要求2所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述变分自编码器包括使用编码器qφ(z|x)将输入数据组成与丰度特征x映射到潜在空间的均值和方差,从潜在空间的分布中采样,使用解
...【技术特征摘要】
1.一种基于视图增强的图嵌入元基因组分箱方法,其特征在于,包括:
2.如权利要求1所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述预先计算组成和丰度特征包括从fasta文件中获取的组成特征的矩阵tin,从bam文件中获取的丰度特征的矩阵ain,使用flye对fasta文件进行读取,生成由重叠群c和邻接矩阵a构成的图数据g=(c,a)。
3.如权利要求2所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述变分自编码器包括使用编码器qφ(z|x)将输入数据组成与丰度特征x映射到潜在空间的均值和方差,从潜在空间的分布中采样,使用解码器pθ(x|z)将样本映射回原始数据空间,表示为:
4.如权利要求3所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述使用图数据进行随机增强包括边缘丢弃和节点特征掩蔽,表示为:
5.如权利要求4所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述进行随机增强还包括通过共享图神经网络编码器,输出两个视图的嵌入表示,表示为:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。