一种基于增量学习的海洋观测大数据分布方法技术

技术编号:15725156 阅读:58 留言:0更新日期:2017-06-29 12:50
本发明专利技术涉及一种基于增量学习的海洋观测大数据分布方法,一种基于增量学习的海洋观测大数据分布方法,所述分布方法包括以下步骤:S1:输入待布局的增量海洋观测数据集;S2:初始化存储容量;S3:计算增量数据集中数据的数据价值;S4:对增量数据集中的所有数据进行划分;S5:利用增量学习方法对增量数据集进行训练;S6:对训练后的数据进行布局;S7:输出布局后的增量海洋观测数据集;其中,所述的步骤S5中的增量学习方法为支持向量机增量学习方法。其优点在于,保证分类正确率的同时,降低训练时间的开销和用户访问数据的响应时间;利用支持向量机的增量学习算法解决过量匹配的问题;有效压缩了样本集的大小并舍弃无用样本。

【技术实现步骤摘要】
一种基于增量学习的海洋观测大数据分布方法
本专利技术涉及海洋数据分布
,具体地说,是一种基于增量学习的海洋观测大数据分布方法。
技术介绍
随着我国海洋强国战略的逐步推进,科学大数据技术的迅猛发展为海洋经济产业注入了科学动力。此外,“海洋一号”A星和“海洋一号”B星等专题卫星的上轨成功优化了我国海洋立体化观测路网,使得高精度、高频度、大覆盖的实时多模态海洋数据呈几何级数爆炸式增长。海洋科学学科特征以及海洋数据获取手段的多源性导致了海洋数据具有海量性、多维、实时、强关联等特征,使得海洋数据成为大数据的典范。对海洋观测大数据有效地进行存储、管理并构建海洋大数据服务是挖掘海洋数据价值的关键途径。数据分布是数据存储中的关键问题,它是将数据划分为一系列不相交的数据片段或区域,并按照一定的数据分配策略分散放置到各个数据节点上。在数据分布过程中,良好的分片实施策略是数据分布的关键。已有的数据分片策略(如轮转划分)适用于有着固定模式的一般关系型数据库,在通用数据上效果显著。然而,多模态的实时海洋观测大数据具有特殊的性质,使得传统的分片策略在对海洋观测大数据进行分片时忽略了其本身的特点,缺乏一定的实用性。故需进一步考虑和分析海洋数据自身的数据价值,才可有效地对数据进行分布和存储。此外,随着大规模海洋立体观测技术的飞速发展,在实际海洋观测过程中,海洋观测大数据的信息不是一次性获得的,会不断地有新数据增加。面对大幅度不断增加的海洋观测大数据,如果每一次都要在所有数据上重新建模存储或进行数据挖掘需花费大量的时间,这显然是不现实的。而增量学习可有效地解决上述问题,使得海洋大数据的存储和管理能更好的走向服务化、实用化。数据分布的主要目的是通过数据的合理分布,使尽可能多的数据就地存放,减少跨越逻辑分区或物理节点的数据访问。在海洋强国的战略需求与新型信息技术迅猛发展下,对海洋大数据进行挖掘和管理可为海洋环境的观测、海洋资源的探测以及海洋灾害的预警预报等研究提供重要的信息资源。然而随着海洋观测手段及设备的多样化和深布局,如浮标、卫星、遥感、观测站等实时数据源采集,造成了数据量的密级增长,使得传统的数据分布策略对于海洋数据的存储和管理产生一定的局限性。面对快速增长的海量海洋观测数据,如何有效地利用历史数据学习的结果,对新增数据进行高效的分析,从而避免对历史样本的重复训练和学习,得到较为准确的数据分类结果是对海洋观测数据进行分布的关键,而增量学习能够很好的解决此类问题。目前,增量学习算法在一些领域中得到了较好的应用。在对海洋数据进行分布过程中,面对实时更新的观测数据,良好的动态自适应性会对数据的分布效果和用户访问数据的响应时间带来较好的影响。因此,面对不断实时更新的海洋观测大数据,将增量学习的思想引入海洋大数据的数据分布中显得尤为重要。中国专利技术专利CN201610561677.1,公开日为2016.12.14,公开了一种基于SPM和深度增量SVM的SAR图像分类方法。但是该方法无法适应于海洋数据,且无法达到本专利技术的技术效果。因此,亟需一种降低训练时间的开销和用户访问数据的响应时间、解决过量匹配的基于增量学习的海洋观测大数据分布方法,而目前关于这种方法还未见报道。
技术实现思路
本专利技术的目的是针对现有技术中的不足,提供一种基于增量学习的海洋观测大数据分布方法。为实现上述目的,本专利技术采取的技术方案是:一种基于增量学习的海洋观测大数据分布方法,所述分布方法包括以下步骤:S1:输入待布局的增量海洋观测数据集;S2:初始化存储容量;S3:计算增量数据集中数据的数据价值;S4:对增量数据集中的所有数据进行划分;S5:利用增量学习方法对增量数据集进行训练;S6:对训练后的数据进行布局;S7:输出布局后的增量海洋观测数据集;其中,所述的步骤S5中的增量学习方法为支持向量机增量学习方法。所述的步骤S3中的数据价值计算包括计算时效性、计算关联性、计算地域性。所述的步骤S4中的划分为利用k-means方法对数据集中的所有数据进行初始划分,将数据集分为活跃区和非活跃区。所述的步骤S6中的布局为对训练后的数据按照活跃区和非活跃区进行布局。所述的步骤S3的计算方法包括以下步骤:S31:计算时效性利用TF-IDF加权技术计算海洋观测大数据的时效性,其计算公式为如下:其中,N为海洋观测大数据集的总数据量,ni表示包含观测数据属性项d的数据集数,tfi(d)表示观测数据属性项d在数据集中出现的频率,Wi(d)表示属性项d的权值。S32:计算关联性设分别表示应用观测数据dk和dm的观测任务,则观测数据dk和dm之间的关联度Sij的计算公式如下:S33:计算地域性利用欧式距离计算方法计算各观测区内各观测位置间的距离Lmn,其计算公式如下:Lmn=√(xm-xn)2+(ym-yn)2(3)其中Lmn表示观测点m和观测点n之间的距离,xm和xn分别表示观测点m和观测点n的经度值,ym和yn分别表示观测点m和观测点n的纬度值。引入归一化变量,用相对位置和整个区间内距离最大值的比值作为观测点的距离关联值RLmn,其计算公式如下:其中,RLmn表示观测点m和观测点n之间的距离关联值,max{L12,L13,L14,……,Lmn}表示在每个距离值之间取最大值。S34:计算数据价值对于海洋观测大数据,根据其被使用的频度、数据的下载次数、数据使用者的重要程度和数据产品的生产成本等因素,适当选取每项因素的加权银子,计算数据价值,其计算公式如下:Vi(d)=Wi(d)×k1+Si(d)×k2+RLi(d)×k3+C(5)其中,Vi(d)代表观测数据的数据价值,Wi(d)代表观测数据的时效性,Si(d)代表观测数据的关联性,RLi(d)带包观测数据的地域性,k1为Wi(d)的加权因子,k2为Si(d)的加权因子,k3为RLi(d)的加权因子,C代表数据价值的惩罚因子,由观测数据的用户关注度、数据采集完成所经历的时间、参与的人力以及数据生产所经历的环节综合得出。所述的步骤S5的工作流程如下:S51:输入新增海洋大数据样本集Bi(i=1,2,3,……,n);S52:判断新增样本是否符合KKT条件:S521:若符合KKT条件,根据KKT条件进行支持向量机(SVM)分类,然后进入步骤S56;S522:若不符合KKT条件,则进入步骤S53;S53:判断Bi是否都在分类面上:S531:若Bi都在分类面上,则将其归为分类间隔上的样本,然后进入步骤S56;S532:若Bi不都在分类面上,则进入步骤S54;S54:判断Bi是否都在分类面的边缘或原分类有误:S541:若Bi都在分类面的边缘或原分类有误,则将其归为分类间隔内的样本,然后进入步骤S56;S542:若Bi不都在分类面的边缘或原分类无误,则进入步骤S55;S55:根据数据价值训练样本集,即利用k-means方法划分样本集;S56:输出增量样本集。本专利技术优点在于:1、保证分类正确率的同时,降低训练时间的开销和用户访问数据的响应时间;2、利用支持向量机的增量学习算法解决过量匹配的问题;3、有效压缩了样本集的大小并舍弃无用样本。附图说明附图1是本专利技术的一种基于增量学习的海洋观测大数据分布方法的流程图。附图2是本专利技术的一种基于增量学习的海洋观测大数据分布方本文档来自技高网
...
一种基于增量学习的海洋观测大数据分布方法

【技术保护点】
一种基于增量学习的海洋观测大数据分布方法,其特征在于,所述分布方法包括以下步骤:S1:输入待布局的增量海洋观测数据集;S2:初始化存储容量;S3:计算增量数据集中数据的数据价值;S4:对增量数据集中的所有数据进行划分;S5:利用增量学习方法对增量数据集进行训练;S6:对训练后的数据进行布局;S7:输出布局后的增量海洋观测数据集;其中,所述的步骤S5中的增量学习方法为支持向量机增量学习方法。

【技术特征摘要】
1.一种基于增量学习的海洋观测大数据分布方法,其特征在于,所述分布方法包括以下步骤:S1:输入待布局的增量海洋观测数据集;S2:初始化存储容量;S3:计算增量数据集中数据的数据价值;S4:对增量数据集中的所有数据进行划分;S5:利用增量学习方法对增量数据集进行训练;S6:对训练后的数据进行布局;S7:输出布局后的增量海洋观测数据集;其中,所述的步骤S5中的增量学习方法为支持向量机增量学习方法。2.根据权利要求1所述的分布方法,其特征在于,所述的步骤S3中的数据价值计算包括计算时效性、计算关联性、计算地域性。3.根据权利要求1所述的分布方法,其特征在于,所述的步骤S4中的划分为利用k-means方法对数据集中的所有数据进行初始划分,将数据集分为活跃区和非活跃区。4.根据权利要求1所述的分布方法,其特征在于,所述的步骤S6中的布局为对训练后的数据按照活跃区和非活跃区进行布局。5.根据权利要求2所述的分布方法,其特征在于,所述的步骤S3的计算方法包括以下步骤:S31:计算时效性利用TF-IDF加权技术计算海洋观测大数据的时效性,其计算公式为如下:其中,N为海洋观测大数据集的总数据量,ni表示包含观测数据属性项d的数据集数,tfi(d)表示观测数据属性项d在数据集中出现的频率,Wi(d)表示属性项d的权值。S32:计算关联性设分别表示应用观测数据dk和dm的观测任务,则观测数据dk和dm之间的关联度Sij的计算公式如下:S33:计算地域性利用欧式距离计算方法计算各观测区内各观测位置间的距离Lmn,其计算公式如下:Lmn=√(xm-xn)2+(ym-yn)2(3)其中Lmn表示观测点m和观测点n之间的距离,xm和xn分别表示观测点m和观测点n的经度值,ym...

【专利技术属性】
技术研发人员:黄冬梅贺琪随宏运何盛琪石少华
申请(专利权)人:上海海洋大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1