System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物信息学元基因组分箱,具体为一种基于视图增强的图嵌入元基因组分箱方法及系统。
技术介绍
1、提高元基因组分箱方法的关键在于从复杂的微生物群落中确定哪些dna序列来自同一微生物基因组,为了解决这个问题,已经开发了各种元基因组分箱方法,其中一些方法利用了组成和丰度特征来对基因组进行分类,例如metabat2和maxbin2,即利用特征计算序列之间的相似性,但这些方法通常需要复杂的设计和架构,对于处理复杂样品时可能会出现误差,随后,一些基于深度学习的方法也被引入了元基因组学领域,其中一些方法利用了图神经网络(gnns)来改进分箱,例如lamurias等人拓展了以前的方法,即使用变分自编码器(vae)根据组成和丰度特征为每个contig生成初级嵌入,然后利用gnn将初级嵌入及组装图结构信息整合在一起,有效地将元基因组分箱任务转化为嵌入学习问题。
2、虽然现有的基于深度学习与图数据相结合的方法有效地提高了元基因组分箱的准确性和效率,但是却忽视了图数据节点存在的重要信息,而最新的研究表明图数据自监督学习引入基于典范相关分析的特征级目标函数在捕捉图结构数据中的重要信息,帮助提高节点分类、图分类等下游任务方面具有显著的优势,即通过随机增强(边缘丢弃和节点特征掩蔽方法)随机生成输入图数据的两个视图,并通过共享的图神经网络编码器网络学习节点表示,使用特征级目标函数最大化同一输入的两个增强视图之间的相关性,同时使单个视图表示的不同特征维度的相关性降至最低,在这个背景下,开发出合适的图数据自监督学习框架以及设计出适当的损失函
技术实现思路
1、鉴于上述存在的问题,提出了本专利技术。
2、因此,本专利技术解决的技术问题是:现有的生物信息学元基因组分箱方法存在准确性低,效率低,可靠性低,以及如何通过引入简单而有效的特征级目标函数,解决了自监督图数据表示学习中忽视了图数据节点存在的重要信息的关键问题,使得模型能够学习到更具信息量和鲁棒性的节点表示的问题。
3、为解决上述技术问题,本专利技术提供如下技术方案:一种基于视图增强的图嵌入元基因组分箱方法,包括对数据集样本的元基因组预先计算组成和丰度特征,并获取源数据表示为图数据形式,构建变分自编码器生成重叠群低维嵌入的输入;使用图数据进行随机增强生成原始图数据的两个视图,并输入到共享图神经网络编码器中;通过共享图神经网络编码器,引入特征级目标函数学习节点表示,返回最佳节点嵌入结果,通过迭代聚类算法,对重叠群进行聚类。
4、作为本专利技术所述的基于视图增强的图嵌入元基因组分箱方法的一种优选方案,其中:所述预先计算组成和丰度特征包括从fasta文件中获取的组成特征的矩阵tin,从bam文件中获取的丰度特征的矩阵ain,使用flye对fasta文件进行读取,生成由重叠群c和邻接矩阵a构成的图数据g=(c,a)。
5、作为本专利技术所述的基于视图增强的图嵌入元基因组分箱方法的一种优选方案,其中:所述变分自编码器包括使用编码器qφ(z|x)将输入数据组成与丰度特征x映射到潜在空间的均值和方差,从潜在空间的分布中采样,使用解码器pθ(x|z)将样本映射回原始数据空间,表示为:
6、
7、其中,x是组成与丰度特征,z是潜在表示,φ是编码器的参数,θ是解码器的参数,μφ(x)和是由编码器网络输出的均值和方差,μθ(z)和是解码器网络表示重建样本的均值和方差;将x输入到变分自编码器的编码器网络qφ(z|x)中,经过两个全连接隐藏层,每个隐藏层都使用归一化和丢弃处理,最后一层的输出被传递到长度为nl两个全连接层,包括μ层和σ层,表示为:
8、li~n(μi,σi),for i=1,…,nl
9、其中,li是长度为nl的向量,nl表示隐藏层的大小;将潜在表示z输入到变分自编码器的解码器网络pθ(x|z)中包括,从高斯分布中采样得到潜在表示z,采样的潜在表示z经过与编码器相反的隐藏层结构,进行解码并重建输入数据,将潜在表示z拆分成两个输出向量aout、tout;重构损失包括eab损失和etnf损失表示为:
10、eab=ln∑(aout+10-9)ain
11、etnf=∑(tout-tin)2
12、其中,ain是组成特征的输入向量,tin是丰度特征的输入向量,aout是组成特征的输出向量,tout是丰度特征的输出向量;kl散度dkl(latent|prior)表示为:
13、
14、其中,μ和σ分别表示为潜在分布的均值和标准差;变分自编码器总的损失函数l表示为:
15、l=wabeab+wtnfetnf+wklddkl
16、其中,eab为组成特征的重构损失,etnf表示丰度特征的重构损失,wab表示组成特征的重构损失权重参数,wtnf是丰度特征的重构损失权重参数,wkld是kl散度的权重参数;三个权重参数表示为:
17、wab=(1-α)ln(s)-1
18、wtnf=α/103
19、wkld=(nlβ)-1
20、其中,s是编码器网络输出在潜在空间的标准差,nl是抽取的样本大小,参数α和β分别设置为0.15和200。
21、作为本专利技术所述的基于视图增强的图嵌入元基因组分箱方法的一种优选方案,其中:所述使用图数据进行随机增强包括边缘丢弃和节点特征掩蔽,表示为:
22、t~t'
23、其中,t是图数据的原始视图,t'是图数据经过随机增强后的视图,边缘丢弃包括随机删除原始图形中的边,节点特征掩蔽包括随机掩蔽所有节点的特征;将两个视图输入到共享图神经网络编码器中,共享图神经网络对输入信息进行每一层的消息聚合和节点更新,经过l层的共享图神经网络,每一层的消息聚合表示为:
24、
25、节点更新表示为:
26、
27、其中,u是节点v的邻居节点,n(v)是节点v的邻居节点集合,aggregate和comebine是消息聚合和节点更新函数,消息聚合过程中对于每个节点v,将邻居节点u的表示第l-1层的进行聚合,获取关于节点v的全局信息,节点更新过程中使用第l层的聚合的信息和当前节点的第l-1层的表示更新节点的第l层的表示
28、作为本专利技术所述的基于视图增强的图嵌入元基因组分箱方法的一种优选方案,其中:所述进行随机增强还包括通过共享图神经网络编码器,输出两个视图的嵌入表示,表示为:
29、
30、其中,za为第一个视图的嵌入表示,zb为第二个视图的嵌入表示,za,zb∈rn×d,d表示嵌入维度,r表示实数空间,n表示共享图神经网络中后并对节点嵌入进行归一化处理图数据的第二个视图,对节点嵌入进行归一化处理,每个特征维度都具有0均值和标准差分布,表示为:
31本文档来自技高网...
【技术保护点】
1.一种基于视图增强的图嵌入元基因组分箱方法,其特征在于,包括:
2.如权利要求1所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述预先计算组成和丰度特征包括从FASTA文件中获取的组成特征的矩阵Tin,从BAM文件中获取的丰度特征的矩阵Ain,使用Flye对FASTA文件进行读取,生成由重叠群C和邻接矩阵A构成的图数据G=(C,A)。
3.如权利要求2所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述变分自编码器包括使用编码器qφ(z|x)将输入数据组成与丰度特征x映射到潜在空间的均值和方差,从潜在空间的分布中采样,使用解码器pθ(x|z)将样本映射回原始数据空间,表示为:
4.如权利要求3所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述使用图数据进行随机增强包括边缘丢弃和节点特征掩蔽,表示为:
5.如权利要求4所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述进行随机增强还包括通过共享图神经网络编码器,输出两个视图的嵌入表示,表示为:
6.如权利要求5所述的基于视图增强的图嵌
7.如权利要求6所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述迭代聚类算法包括将图数据的最佳节点嵌入结果和变分自编码器的重叠群嵌入结果进行串联,计算嵌入距离,使用迭代过程确定最佳中心点,直到停止迭代,确定最终的优化聚类结果;
8.一种采用如权利要求1~7任一所述的基于视图增强的图嵌入元基因组分箱方法的系统,其特征在于:包括样本处理模块,随机增强模块,聚类模块;
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于视图增强的图嵌入元基因组分箱方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于视图增强的图嵌入元基因组分箱方法的步骤。
...【技术特征摘要】
1.一种基于视图增强的图嵌入元基因组分箱方法,其特征在于,包括:
2.如权利要求1所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述预先计算组成和丰度特征包括从fasta文件中获取的组成特征的矩阵tin,从bam文件中获取的丰度特征的矩阵ain,使用flye对fasta文件进行读取,生成由重叠群c和邻接矩阵a构成的图数据g=(c,a)。
3.如权利要求2所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述变分自编码器包括使用编码器qφ(z|x)将输入数据组成与丰度特征x映射到潜在空间的均值和方差,从潜在空间的分布中采样,使用解码器pθ(x|z)将样本映射回原始数据空间,表示为:
4.如权利要求3所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述使用图数据进行随机增强包括边缘丢弃和节点特征掩蔽,表示为:
5.如权利要求4所述的基于视图增强的图嵌入元基因组分箱方法,其特征在于:所述进行随机增强还包括通过共享图神经网络编码器,输出两个视图的嵌入表示,表示为:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。