当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于视图增强的图嵌入元基因组分箱方法及系统技术方案

技术编号:42670059 阅读:24 留言:0更新日期:2024-09-10 12:24
本发明专利技术公开了一种基于视图增强的图嵌入元基因组分箱方法及系统,涉及生物信息学元基因组分箱技术领域,包括对数据集样本的元基因组预先计算组成和丰度特征,并获取源数据表示为图数据形式,构建变分自编码器生成重叠群低维嵌入的输入;使用图数据进行随机增强生成原始图数据的两个视图,并输入到共享图神经网络编码器中;通过共享图神经网络编码器,引入特征级目标函数学习节点表示,返回最佳节点嵌入结果,通过迭代聚类算法,对重叠群进行聚类。本发明专利技术所述方法通过随机增强能力在原始基因组数据中生成多样化的图数据,并且通过引入基于典范相关分析的特征级目标函数可以简化数据的表示学习过程,更好地支持元基因组学研究中的各种分析任务。

【技术实现步骤摘要】

本专利技术涉及生物信息学元基因组分箱,具体为一种基于视图增强的图嵌入元基因组分箱方法及系统


技术介绍

1、提高元基因组分箱方法的关键在于从复杂的微生物群落中确定哪些dna序列来自同一微生物基因组,为了解决这个问题,已经开发了各种元基因组分箱方法,其中一些方法利用了组成和丰度特征来对基因组进行分类,例如metabat2和maxbin2,即利用特征计算序列之间的相似性,但这些方法通常需要复杂的设计和架构,对于处理复杂样品时可能会出现误差,随后,一些基于深度学习的方法也被引入了元基因组学领域,其中一些方法利用了图神经网络(gnns)来改进分箱,例如lamurias等人拓展了以前的方法,即使用变分自编码器(vae)根据组成和丰度特征为每个contig生成初级嵌入,然后利用gnn将初级嵌入及组装图结构信息整合在一起,有效地将元基因组分箱任务转化为嵌入学习问题。

2、虽然现有的基于深度学习与图数据相结合的方法有效地提高了元基因组分箱的准确性和效率,但是却忽视了图数据节点存在的重要信息,而最新的研究表明图数据自监督学习引入基于典范相关分析的特征级目标函数在本文档来自技高网...

【技术保护点】

1.一种基于视图增强的图嵌入元基因组分箱方法,其特征在于,包括:

2.如权利要求1所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述预先计算组成和丰度特征包括从FASTA文件中获取的组成特征的矩阵Tin,从BAM文件中获取的丰度特征的矩阵Ain,使用Flye对FASTA文件进行读取,生成由重叠群C和邻接矩阵A构成的图数据G=(C,A)。

3.如权利要求2所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述变分自编码器包括使用编码器qφ(z|x)将输入数据组成与丰度特征x映射到潜在空间的均值和方差,从潜在空间的分布中采样,使用解码器pθ(x|z)将...

【技术特征摘要】

1.一种基于视图增强的图嵌入元基因组分箱方法,其特征在于,包括:

2.如权利要求1所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述预先计算组成和丰度特征包括从fasta文件中获取的组成特征的矩阵tin,从bam文件中获取的丰度特征的矩阵ain,使用flye对fasta文件进行读取,生成由重叠群c和邻接矩阵a构成的图数据g=(c,a)。

3.如权利要求2所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述变分自编码器包括使用编码器qφ(z|x)将输入数据组成与丰度特征x映射到潜在空间的均值和方差,从潜在空间的分布中采样,使用解码器pθ(x|z)将样本映射回原始数据空间,表示为:

4.如权利要求3所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述使用图数据进行随机增强包括边缘丢弃和节点特征掩蔽,表示为:

5.如权利要求4所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述进行随机增强还包括通过共享图神经网络编码器,输出两个视图的嵌入表示,表示为:

【专利技术属性】
技术研发人员:李云陈莉刘岩
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1