spark结合tensorflow进行遥感影像信息提取的方法技术

技术编号:21714303 阅读:47 留言:0更新日期:2019-07-27 19:11
本发明专利技术公开了一种spark结合tensorflow进行遥感影像信息提取的方法,包括以下步骤:(Ⅰ)构建分布式存储系统,存储元数据信息;(Ⅱ)分布式计算集群与机器学习tensorflow结合;(Ⅲ)直接读取分布式存储系统上的遥感影像数据;(Ⅳ)编写分布式上遥感影像信息提取的机器学习算法;(Ⅴ)使用spark将数据进行分片并读取到内存队列。本发明专利技术提供了一种spark结合tensorflow进行遥感影像信息提取的方法,采用分布式存储、分布式计算结合机器学习的技术路线,实现遥感信息快速、批量提取,提高了遥感影像数据提取的处理能力与效率。

Spark and tensorflow for remote sensing image information extraction

【技术实现步骤摘要】
spark结合tensorflow进行遥感影像信息提取的方法
本专利技术涉及遥感影像数据提取方法的
,特别涉及一种spark结合tensorflow进行遥感影像信息提取的方法。
技术介绍
遥感信息产品是指通过对遥感影像各地物的光谱、空间、纹理、物候等特征进行分析,选择各地物特征,对影像中的像元或具体对象按照一定规则、模型、算法划分为不同的地物类型,从而获得带空间信息的实际地物对应信息,实现基于遥感影像的信息提取。最后,形成诸如土地利用现状分类、林种划分、新增建设物识别、基本农田侵占等专题地图。传统的遥感信息产品需要人工借助专业软件进行生产,一方面成本较高,另一方面效率与处理能力都比较低。
技术实现思路
本专利技术是为了克服现有技术中存在的缺点而提出的,其目的是提供一种spark结合tensorflow进行遥感影像信息提取的方法。本专利技术的技术方案是:一种spark结合tensorflow进行遥感影像信息提取的方法,包括以下步骤:(Ⅰ)构建分布式存储系统,存储元数据信息构建自主存储海量文件的遥感影像数据的分布式存储系统,采用分布式nosql数据库存储文件的元数据信息;(Ⅱ)分布式计算集群与机器学习tensorflow结合实现分布式计算集群与机器学习tensorflow结合,分布式计算集群负责为tensorflow分配计算资源和数据分片,分布式计算集群根据任务需求在计算节点上创建独立的运行容器,并在该容器上运行tensorflow的worker节点,实现模型算法的计算;(Ⅲ)直接读取分布式存储系统上的遥感影像数据针对开源gdal源码进行修改,增加文件存储标识,并且重载原有读取文件方法,引入hdfs读写方法库,实现对hdfs文件系统上文件读取,然后根据文件存储标识,为0则存储于本地,调用gdal原先文件读取方法,位1则存储于分布式存储系统上,则调用重载的读取文件方法;(Ⅳ)编写分布式上遥感影像信息提取的机器学习算法编写分布式上遥感影像信息提取的机器学习算法,算法处理流程分为模型训练和模型应用;(Ⅴ)使用spark将数据进行分片并读取到内存队列在模型训练时,使用spark将数据进行分片并读取到内存队列中,运行于多个节点上的tensorflow计算任务,从内存队列中读取自己需要处理的数据进行处理,各个节点上读取数据与spark将数据从hdfs读取到内存队列中是同步的。所述元数据信息包括文件的大小、路径、存储位置或时间。所述步骤(Ⅰ)中存储文件的元数据信息时,根据设置的文件大小设置存储位置。所述步骤(Ⅰ)中存储文件的元数据信息时,将小于8MB的文件存储于分布式nosql数据库中,将大于等于8MB的文件存储于分布式文件系统hdfs中。所述步骤(Ⅳ)模型训练的具体步骤为:(ⅰ)模型的设计使用机器学习算法设计的一个由简单函数组成的复杂的函数,所述函数拥有大量参数以供学习目标要素的特征;模型包括输入层、卷积层、池化层、激活层、反卷积层、输出层;(ⅱ)获取最优的参数确定模型结构后,通过使用训练集对模型进行训练得到获取最优的参数。所述训练集是融合影像-标签影像组成的影像对,两者分辨率大小相同,标签上的每一个值代表融合影像对应位置的分类。所述获取最优的参数的具体步骤为将模型的参数随机初始化,并输入训练集中的融合影像,经过运算后得到输出并与训练集的标签一起计算交叉熵,然后通过Adam等自适应学习率算法调节模型参数,多次迭代后得到最终的模型参数。所述步骤(Ⅳ)模型应用的具体步骤为:(ⅰ)影像融合将遥感影像进行前处理,处理后再通过机器学习模型进行处理,再将两期时相不一的影像融合成新影像;(ⅱ)融合影像的要素分类融合后的新影像输入至模型后,系统逐行逐列裁切小块影像并分别进行处理;裁切的小块融合影像使用已训练好的模型进行处理,得到相同规格大小的标签影像,当整幅融合影像被裁切成小块处理完后,系统会将所有标签影像按顺序拼接到一起,得到整幅融合影像的要素分类情况。所述步骤(ⅰ)影像融合中的前处理包括大气校正和辐射校正。本专利技术的有益效果是:本专利技术提供了一种spark结合tensorflow进行遥感影像信息提取的方法,采用分布式存储系统存储海量遥感影像数据,利用分布式计算平台spark结合机器学习tensorflow,对要遥感影像样本进行批量学习训练,以达到预期的精度后,再利用训练后的模型在该平台上进行遥感影像信息提取,该提取也是基于分布式存储和分布式计算与机器学习结合。附图说明图1是本专利技术的方法流程图。具体实施方式下面结合说明书附图及实施例对本专利技术spark结合tensorflow进行遥感影像信息提取的方法进行详细说明:如图1所示,一种spark结合tensorflow进行遥感影像信息提取的方法,包括以下步骤:(Ⅰ)构建分布式存储系统,存储元数据信息构建一套自主的能够存储海量大小文件的遥感影像数据的分布式存储系统,采用分布式nosql数据库存储文件的元数据信息,包括文件的大小、路径、存储位置、时间等信息,根据设置的文件大小,例如8MB,将小于8MB的文件存储于分布式nosql数据库中,将大于等于8MB的文件存储于分布式文件系统hdfs中。(Ⅱ)分布式计算集群与机器学习tensorflow结合实现分布式计算集群与机器学习tensorflow结合,分布式计算集群主要负责为tensorflow分配计算资源和数据分片,分布式计算集群根据任务需求在计算节点上创建独立的运行容器,并在该容器上运行tensorflow的worker节点,实现模型算法的计算;具体步骤为:(a)人工智能学习系统开始任务时,指定分布式计算平台构建存储系统的个数、每个存储系统占用cpu或gpu、每个存储系统大小;(b)分布式计算平台根据计算机资源的需求在空闲计算机上创建存储系统;(c)将分布式计算平台存储系统的文件路径作为key值,将元数据信息作为属性,key值和属性存储在分布式计算平台存储系统的数据库中,并在分布式计算平台的内存中建立索引和缓存;(d)分布式计算平台存储系统的最后一级子目录或最后一级文件前面增加分割符,用于提取分布式计算平台存储系统目录下文件和子目录。(Ⅲ)直接读取分布式存储系统上的遥感影像数据针对开源gdal源码进行修改,增加文件存储标识,并且重载原有读取文件方法,引入hdfs读写方法库,实现对hdfs文件系统上文件读取,然后根据文件存储标识,为0则存储于本地,调用gdal原先文件读取方法,位1则存储于分布式存储系统上,则调用重载的读取文件方法;(Ⅳ)编写分布式上遥感影像信息提取的机器学习算法编写分布式上遥感影像信息提取的机器学习算法,算法处理流程分为模型训练和模型应用;A、模型训练变化提取与要素提取的主要区别在于,变化提取需要输入的影像,为两期时相不一的影像融合形成的新影像。因此在生成训练集的时候,需要将对应影像融合。在将机器学习算法应用至遥感地物要素的变化提取之前,首先进行模型的设计。此处所说的模型,指使用机器学习算法设计的一个由简单函数组成的复杂的函数,函数的主要作用是不断的执行各种数学运算,该函数拥有大量参数以供学习目标要素的特征。从结构上来说,模型主要分为输入层、卷积层、池化层、激活层、反卷积层、输出层等网络。确定模型结构以后,需要得到最优的参数,本文档来自技高网...

【技术保护点】
1. 一种spark结合tensorflow进行遥感影像信息提取的方法,其特征在于:包括以下步骤:(Ⅰ)构建分布式存储系统,存储元数据信息构建自主存储海量文件的遥感影像数据的分布式存储系统,采用分布式nosql数据库存储文件的元数据信息;(Ⅱ)分布式计算集群与机器学习tensorflow结合实现分布式计算集群与机器学习tensorflow结合,分布式计算集群负责为tensorflow分配计算资源和数据分片,分布式计算集群根据任务需求在计算节点上创建独立的运行容器,并在该容器上运行tensorflow的worker节点,实现模型算法的计算;(Ⅲ)直接读取分布式存储系统上的遥感影像数据针对开源gdal源码进行修改,增加文件存储标识,并且重载原有读取文件方法,引入hdfs读写方法库,实现对hdfs文件系统上文件读取,然后根据文件存储标识,为0则存储于本地,调用gdal原先文件读取方法,位1则存储于分布式存储系统上,则调用重载的读取文件方法;(Ⅳ)编写分布式上遥感影像信息提取的机器学习算法编写分布式上遥感影像信息提取的机器学习算法,算法处理流程分为模型训练和模型应用;(Ⅴ)使用spark将数据进行分片并读取到内存队列在模型训练时,使用spark将数据进行分片并读取到内存队列中,运行于多个节点上的tensorflow计算任务,从内存队列中读取自己需要处理的数据进行处理,各个节点上读取数据与spark将数据从hdfs读取到内存队列中是同步的。...

【技术特征摘要】
1.一种spark结合tensorflow进行遥感影像信息提取的方法,其特征在于:包括以下步骤:(Ⅰ)构建分布式存储系统,存储元数据信息构建自主存储海量文件的遥感影像数据的分布式存储系统,采用分布式nosql数据库存储文件的元数据信息;(Ⅱ)分布式计算集群与机器学习tensorflow结合实现分布式计算集群与机器学习tensorflow结合,分布式计算集群负责为tensorflow分配计算资源和数据分片,分布式计算集群根据任务需求在计算节点上创建独立的运行容器,并在该容器上运行tensorflow的worker节点,实现模型算法的计算;(Ⅲ)直接读取分布式存储系统上的遥感影像数据针对开源gdal源码进行修改,增加文件存储标识,并且重载原有读取文件方法,引入hdfs读写方法库,实现对hdfs文件系统上文件读取,然后根据文件存储标识,为0则存储于本地,调用gdal原先文件读取方法,位1则存储于分布式存储系统上,则调用重载的读取文件方法;(Ⅳ)编写分布式上遥感影像信息提取的机器学习算法编写分布式上遥感影像信息提取的机器学习算法,算法处理流程分为模型训练和模型应用;(Ⅴ)使用spark将数据进行分片并读取到内存队列在模型训练时,使用spark将数据进行分片并读取到内存队列中,运行于多个节点上的tensorflow计算任务,从内存队列中读取自己需要处理的数据进行处理,各个节点上读取数据与spark将数据从hdfs读取到内存队列中是同步的。2.根据权利要求1所述的一种spark结合tensorflow进行遥感影像信息提取的方法,其特征在于:所述元数据信息包括文件的大小、路径、存储位置或时间。3.根据权利要求1所述的一种spark结合tensorflow进行遥感影像信息提取的方法,其特征在于:所述步骤(Ⅰ)中存储文件的元数据信息时,根据设置的文件大小设置存储位置。4.根据权利要求1所述的一种spark结合tensorflow进行遥感影像信息提取的方法,其特征在于:所述步骤(Ⅰ)中存储文件的...

【专利技术属性】
技术研发人员:李文东李涛檀飞腾
申请(专利权)人:中科遥感深圳卫星应用创新研究院有限公司中科遥感科技集团有限公司广东中科遥感技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1