一种基于变分自编码器的地震数据扩充方法技术

技术编号:24455810 阅读:102 留言:0更新日期:2020-06-10 15:30
本发明专利技术公开一种基于变分自编码器的地震数据扩充方法,应用于地球物理勘探解释技术及深度学习领域,为了解决现有的人工获取稳定、可靠的某类地震数据要花费大量的人力物力的问题,本发明专利技术先利用无标签的数据去训练整个VAE网络模型,对于某一类想要扩充样本的标签数据,将其输入到训练好的VAE网络中,通过编码器得到一个二维的隐变量数据,再利用高斯混合模型得到此二维隐变量的具体分布;在已知隐变量分布的情况下,可以采样得到同分布的更多的隐变量数据,将这些隐变量数据输入到训练好的VAE网络模型的解码器中,就可以得到大量的接近某一类标签数据的样本,以此达到一个实现扩充地震数据的目的。

A method of seismic data expansion based on variational self encoder

【技术实现步骤摘要】
一种基于变分自编码器的地震数据扩充方法
本专利技术属于地球物理勘探解释技术及深度学习领域,特别涉及一种地震数据处理技术。
技术介绍
近年来,在深度学习领域,无监督学习模型受到越来越多的关注,尤其是在深度生成模型方面,取得了突破性的进展。其中,变分自编码器(VariationalAuto-Encoders,VAE)和生成对抗网络(GenerativeAdversarialNetworks,GAN)被视为无监督学习领域最具有研究价值的方法之一,在深度生成模型领域得到越来越多的应用。变分自编码器(VAE)作为深度生成模型的一种形式,是由Kingma等人于2014年提出的基于变分贝叶斯(VariationalBayes,VB)推断的生成式网络结构。变分自编码器作为特殊形式的自编码器模型,一经提出就迅速成为深度生成模型领域最受关注的形式之一,VAE是一种深度隐空间生成模型,在数据生成方面表现出巨大的应用价值,尤其是在图像生成方面,得到了非常广泛的应用。变分自编码器(VAE)模型是一个数学逻辑性极强的数据生成模型,结合深度学习和统计学习构造了一套逻辑自洽的数据生成流程,VAE采取了弱监督的学习方式,是对自编码器的一种拓展,不使用人工标记而是样本本身作为训练标签,其目的不再是提取原始样本的隐藏变量,而是生成全新的样本数据。VAE有两大核心点,一是以自编码器为核心搭建的神经网络,二是以变分推断为核心构造的损失函数,VAE使用自编码器获取隐藏变量的信息,通过假设隐藏变量服从标准正态分布进而获取到变分推断需要的先验概率分布,因此VAE是个显式数据生成模型。目前,作为在深度生成模型领域最具有价值的方法之一的变分自编码器这种无监督的数据生成方法在地质领域的应用基本上很少,尤其是在地震数据生成方面还是一个空白。而在实际中要人工获取稳定、可靠的某类地震数据要花费大量的人力物力。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于变分自编码器的地震数据扩充方法,通过利用变分自编码器(VariationalAuto-Encoders,VAE),在某类地震样本数据数量不足的情况下生成大量分布接近此类样本的数据;从而实现了以数据驱动方式就扩充地震数据的目的。本专利技术采用的技术方案为:一种基于变分自编码器的地震数据扩充方法,包括:S1、将不同类型的无标签地震数据作为训练集,S2、采用步骤S1的训练集对VAE网络进行训练,得到训练好的VAE网络模型;S3、将待扩充样本的标签数据输入步骤S2训练好的VAE网络模型,得到新的样本数据。步骤S3具体为:S31、将待扩充样本的标签数据作为VAE网络模型的编码器的输入;S32、VAE网络模型的编码器输出隐变量;S32、通过高斯混合模型拟合出隐变量的分布;S33、根据拟合的分布,从该分布中采样得到大量隐变量;S34、将步骤S33获得的大量的隐变量输入VAE网络模型的解码器,得到新样本数据。步骤S32具体为:采用模拟采样技术从标准正态分布中采样辅助噪声变量ε,通过辅助噪声变量ε来得到隐变量z的分布。所述编码器还包括输出标准正态分布的均值μ和方差σ2。步骤S33具体为:根据辅助噪声变量ε、标准正态分布的均值μ和方差σ2获得生成因子z*,计算式如下:z*=σ2(ε-μ)。步骤S33具体为:将生成因子z*输入解码器,解码得到新样本数据,将新样本数据作为扩充样本。本专利技术的有益效果:本专利技术先利用无标签的数据去训练整个VAE网络模型,对于某一类想要扩充样本的标签数据,将其输入到训练好的VAE网络中,通过编码器得到一个二维的隐变量数据,再利用高斯混合模型得到此二维隐变量的具体分布;在已知隐变量分布的情况下,可以采样得到同分布的更多的隐变量数据,将这些隐变量数据输入到训练好的VAE网络模型的解码器中,就可以得到大量的接近某一类标签数据的样本,以此达到一个实现扩充地震数据的目的。相比于利用人工手段扩充地震数据的技术,本专利技术的优点是通过深度学习的方法生成比较稳定、可靠的地震数据以实现快速的扩充,在一定程度上节省了人力物力。目前,这种数据生成方法在地质领域尚未应用,尤其是在以数据驱动方式为基础的地震数据扩充领域。附图说明图1为VAE基本网络结构;图2为AEVB算法流程;图3为VAE模型基本训练流程;图4为扩充地震数据算法流程图;图5为正演得到的两类理论地震数据;图6为扩充生成的两类理论地震数据;图7为两类理论地震数据对应真实数据和生成数据主频比较;图8为某地区的三类实际地震数据;图9为扩充生成的某地区的三类实际地震数据;图10为三类实际地震数据对应真实数据和生成数据主频比较。具体实施方式为便于本领域技术人员理解本专利技术的
技术实现思路
,下面结合附图1-10对本
技术实现思路
进一步阐释。利用深度学习领域的深度生成模型生成地震数据是一种高度非线性、多模态的问题。GAN把所有的输出看作是在一个分布中,因此GAN只能生成一种类别的输出(比如只能生成猫或狗的一种)。目前用GAN来生成正演记录,从理论上来说,只知道生成的伪样本数据分布和真实数据是一样的,但是在真实数据数量不多的情况下,会导致模型的训练效果不好,也就是无法很好的生成某一类伪样本。继而对于其他类型的伪样本来说也是一样的情况。而VAE将每一个输出分类看作一个分布,这样就可以生成多种分类输出(比如既可以生成猫又可以生成狗等)。由于GAN是用来生成和某一种数据类型一样的伪样本的,它无法很好的利用多种类型的数据样本。VAE确恰好可以将这些不同类型的数据全部当做训练集来训练模型。传统自动编码器由于隐藏层输出的向量混乱且未知导致其不能够自主地生成数据,基于此,2014年DiederikP.Kingma和MaxWelling在传统自动编码器的隐含层中加入了隐变量z,然后通过这个隐变量来自动生成数据从而形成了变分自编码器(VAE)。变分自编码器作为一种结合了深度学习和统计学习特点的生成模型,很好的利用了深度模型在应用于非线性拟合时候非常强大的能力。VAE是对自动编码器的一种拓展,其目标不再是提取原始样本的隐藏变量,而是生成全新的样本数据,因此目标输出不是编码器的输出而是解码器的输出,其基本结构如图1所示。合理损失函数是指导神经网络模拟成数据生成模型的关键,VAE采取的是一种相对传统的思路,即损失函数由概率似然为核心来构建,生成的新样本满足训练集样本的概率分布是其构造损失函数的理论依据。本专利技术在人工获取地震数据需要耗费大量人力物力的背景下,通过结合深度学习领域深度生成模型方面的方法(变分自编码器,VAE),在某类地震数据样本不足的情况下生成大量有效、可靠的数据,从而实现了以数据驱动方式就可以扩充地震数据的目的。本专利技术的实现原理为:1、构建隐变量模型当我们训练一个某类数据的生成模型时,该数据的不同维度之间的相关本文档来自技高网
...

【技术保护点】
1.一种基于变分自编码器的地震数据扩充方法,其特征在于,包括:/nS1、将不同类型的无标签地震数据作为训练集,/nS2、采用步骤S1的训练集对VAE网络进行训练,得到训练好的VAE网络模型;/nS3、将待扩充样本的标签数据输入步骤S2训练好的VAE网络模型,得到新的样本数据。/n

【技术特征摘要】
1.一种基于变分自编码器的地震数据扩充方法,其特征在于,包括:
S1、将不同类型的无标签地震数据作为训练集,
S2、采用步骤S1的训练集对VAE网络进行训练,得到训练好的VAE网络模型;
S3、将待扩充样本的标签数据输入步骤S2训练好的VAE网络模型,得到新的样本数据。


2.根据权利要求1所述的一种基于变分自编码器的地震数据扩充方法,其特征在于,步骤S3具体为:
S31、将待扩充样本的标签数据作为VAE网络模型的编码器的输入;
S32、VAE网络模型的编码器输出隐变量;
S32、通过高斯混合模型拟合出隐变量的分布;
S33、根据拟合的分布,从该分布中采样得到大量隐变量;
S34、将步骤S33获得的大量的隐变量输入VAE网络模型的解码器,得到新样本数据。


...

【专利技术属性】
技术研发人员:胡光岷陈松李坤鸿蔡涵鹏
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1