一种地质方向人工神经网络训练数据的扩展算法制造技术

技术编号:27616315 阅读:11 留言:0更新日期:2021-03-10 10:47
本发明专利技术涉及地质和人工智能技术领域,具体涉及一种地质方向人工神经网络训练数据的扩展算法,包括步骤A、地质数据的获取,步骤B、数据分析筛选,步骤C、数据扩展与前处理,步骤D、模型训练以及步骤E、准确性验证,该扩展算法适用于海洋地质领域以及类似的训练数据量少的领域,通过对有限的少量已有数据进行分析、处理和扩展,以满足当前大量训练数据的需求,达到现有人工神经网络训练模型学习的需求,得到精确的预测模型。因此,通过本发明专利技术的方法,能够在人工智能学习中,在样本数据量较小时对数据进行扩展,提高少量数据训练时的精度,对有限的数据具有深入挖掘的功能,以达到充分学习、增加准确率的目的。增加准确率的目的。增加准确率的目的。

【技术实现步骤摘要】
一种地质方向人工神经网络训练数据的扩展算法


[0001]本专利技术涉及地质和人工智能
,具体涉及一种地质方向人工神经网络训练数据的扩展算法。

技术介绍

[0002]人工智能技术是目前在全球各领域都广泛运用的一项技术,无论是图像识别、声音识别、自动驾驶还是搜索引擎的使用,都给人们生活带来了巨大的便利。在地质领域,人工智能技术也逐渐得到了广泛的使用,例如卫星图片识别、灾害预警以及各类地质数据预测等。人工智能算法最基础的思想为利用已有模型,通过对训练数据进行学习和校正,最终获得合适的模型内部参数,并进行下一步的使用。其中,人工神经网络作为一种有监督机器学习算法,是应用最为广泛的一种人工智能算法。
[0003]通常情况下,人工智能训练数据的获得较为容易且数据量庞大。像淘宝、京东等购物网站,每天通过用户的点击量即可获得大量训练数据,对用户的喜好进行预测和分类,甚至还要适当对数据进行精简以加快运算速度。但是,与大部分人工智能的应用领域不同的是,地质领域获取数据成本高、难度大、影响因素复杂,因此研究某一问题时训练数据往往较为不足,与其他领域以TB为单位计算的数据比较起来,往往只有几kb的数据量,容易导致训练数据不足、训练结果不准确。
[0004]人类或生物对于某一事物或问题的学习,往往几十甚至几次就能快速掌握该问题,根本不需要几万甚至几十万次的数据进行训练。这说明现有人工智能算法仍然具有较大的不足,对于数据量有着较大的依赖,与真正生物学习和处理问题的能力差别较大。当训练数据量不足时无法得到精确的预测模型,所以充足的训练数据量非常重要。
[0005]为此,亟待提出一种数据扩展算法,可以针对地质领域的基于人工神经网络训练数据量较少的情况,能够对已有数据进行分析、处理和扩展,以满足当前大量训练数据的需求。

技术实现思路

[0006]本专利技术的目的在于针对现有技术中的不足,而提供一种地质方向人工神经网络训练数据的扩展算法,该扩展算法能够对有限的少量数据进行分析、处理和扩展,达到现有人工神经网络训练模型学习的需求,得到精确的预测模型。
[0007]本专利技术的目的通过以下技术方案实现:
[0008]提供一种地质方向人工神经网络训练数据的扩展算法,包括以下步骤:
[0009]步骤A、地质数据的获取:
[0010]获取研究海洋地质问题或区域的相关参数,用以保证数据的准确性,所有参数对应的数据为原始数据t;
[0011]步骤B、数据分析筛选:
[0012]结合研究海洋地质领域的专业知识,分析哪些参数进行数据扩展后对结果没有影
响,筛选出适宜进行扩展处理的参数,作为可扩展参数;
[0013]将原始数据t按比例分成a%和(1

a%)两部分,其中a%的数据作为训练数据X进行扩展处理使用,所述训练数据X的总量为t
×
a%,剩余(1

a%)的数据作为二次检验数据Y使用,所述二次检验数据Y的总量为t
×
(1

a%)。
[0014]步骤C、数据扩展与前处理:
[0015]步骤C1、数据扩展处理:
[0016]将筛选出的可扩展参数所对应的训练数据X,使用数值临近法进行扩展,同一个参数扩展的数量和不同参数之间的组合方式根据实际情况进行校验后确定,具体为:
[0017]每一行作为一组数据,当对x行y列的参数进行扩展时,可扩展参数的数量为m,m≤y;假设指定某一参数a3进行扩展时,扩展的总量为s、扩展次数为n,则每次扩展的步长为:
[0018]所述训练数据X扩展后的总量变为了X(n+1);
[0019]若对m个参数均进行扩展,考虑到不同参数之间的排列组合,扩展后训练数据的最大参数总量为Z:
[0020][0021]则扩展后训练数据的总量Z比原有训练数据X的总量多了组参数;
[0022]该步骤在实际操作时,可使用不同组参数扩展数目进行试验,找到满足应用需求的扩展数量即可,并不一定需要用到最大数量的参数值。
[0023]步骤C2、数据前处理:
[0024]将步骤C1的扩展后训练数据总量Z进行归一化处理,原始数据线性化的方法转换到[0,1]的范围,归一化公式为:
[0025][0026]其中a
max
为样本数据的最大值,a
min
为样本数据的最小值,归一化后再次将数据分成b%和1

b%两部分,其中b%的数据作为最终训练数据用于模型训练使用,所述最终训练数据的总量为Z
×
b%;剩余(1

b%)的数据作为初次检验数据用于模型初次检验使用,所述初次检验数据的总量为Z
×
(1

b%)。
[0027]步骤D、模型训练:
[0028]使用人工神经网络模型,对步骤C2的最终训练数据(即总量为Z
×
b%的部分数据)进行模型训练,当满足精度需求后,停止训练得到所需模型;
[0029]该步骤使用人工神经网络模型进行训练,重点在于通过使用不同的神经网络隐藏层数目、激活函数和神经网络参数,对比分析得到最适宜该问题的参数,具体可参照神经网络原理与编程应用的详细介绍,这部分为现有技术,在此不做过多叙述。
[0030]步骤E、准确性验证:
[0031]准确性检验共分为两个步骤,分别为初次检验和二次检验;其中,初次检验步骤中使用的数据为初次检验数据(即总量为Z
×
(1

b%)的部分数据),若模型计算后准确性达标
则通过检验,若不达标则需要重新训练;
[0032]达标后再进行二次检验,二次检验步骤中使用的数据为二次检验数据Y(即总量为t
×
(1

a%)的部分数据)进行训练,该部分不受数据扩展的影响,因此可以防止“过拟合”现象的出现;
[0033]所述准确性检验,若初次检验、二次检验的准确率均较低,则应重新进行数据扩展和训练;若初次检验准确率很高,二次检验准确率低,则说明出现“过拟合”现象,应减小训练数据的量,重新训练;若初次检验和二次检验的准确率均较高,则表示模型较为可靠。
[0034]上述技术方案中,步骤A中,所述参数包括但不限于内动力地质作用参数(如构造运动、火山爆发、地震等参数)、外动力地质作用(如风化、侵蚀等参数)参数和研究对象自身地质参数(如岩土体类型、工程性质等参数)。
[0035]上述技术方案中,步骤B中,a%设置为60%~85%,根据具体的案例数据不同也可以做出适当的调整。
[0036]上述技术方案中,步骤C2中,b%设置为60%~85%,根据具体的案例数据不同也可以做出适当的调整。
[0037]本专利技术的有益效果:
[0038]本专利技术的一种地质方向人工神经网络训练数据的扩展算法,包括步骤A、地质数据的获取,步骤B、数据分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地质方向人工神经网络训练数据的扩展算法,其特征在于:包括以下步骤:步骤A、地质数据的获取:获取研究海洋地质问题或区域的相关参数,用以保证数据的准确性,所有参数对应的数据为原始数据t;步骤B、数据分析筛选:分析哪些参数进行数据扩展后对结果没有影响,筛选出适宜进行扩展处理的参数,作为可扩展参数;将原始数据t按比例分成a%和(1

a%)两部分,其中a%的数据作为训练数据X进行扩展处理使用,所述训练数据X的总量为t
×
a%,剩余(1

a%)的数据作为二次检验数据Y使用,所述二次检验数据Y的总量为t
×
(1

a%);步骤C、数据扩展与前处理:C1、数据扩展处理:将筛选出的可扩展参数所对应的训练数据X,使用数值临近法进行扩展,同一个参数扩展的数量和不同参数之间的组合方式根据实际情况进行校验后确定,具体为:每一行作为一组数据,当对x行y列的参数进行扩展时,可扩展参数的数量为m,m≤y;假设指定某一参数a3进行扩展时,扩展的总量为s、扩展次数为n,则每次扩展的步长为:所述训练数据X扩展后的总量变为了X(n+1);若对m个参数均进行扩展,考虑到不同参数之间的排列组合,扩展后训练数据的最大参数总量为Z:则扩展后训练数据的总量Z比原有训练数据X的总量多了组参数;C2、数据前处理:将步骤C1的扩展后训练数据总量Z进行归一化处理,原始数据线性化的方法转换到[0,1]的范围,归一化公式为:其中,a
max
为样本数据的最大值,a
min
为样本数据的最小值,归一...

【专利技术属性】
技术研发人员:杜星赵晓龙
申请(专利权)人:自然资源部第一海洋研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1