用于处理地物图像的方法、系统、装置和介质制造方法及图纸

技术编号：40237422 阅读：5 留言：0更新日期：2024-02-02 22:36

公开了一种用于处理地物图像的方法，包括：提取地物图像的特征；基于特征生成令牌特征和候选查询特征；基于令牌特征使用Transformer编码器生成编码器输出；基于候选查询特征和轨迹信息生成查询特征；以及将编码器输出和查询特征输入到Transformer解码器以生成地物图像的增强表示。还公开了相应的系统、装置和介质。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，尤其涉及用于处理地物图像的方法、系统、装置和计算机可读介质。

技术介绍

1、机器学习已经被广泛应用于图像处理，以执行目标识别等任务。目前，机器学习也已经被应用于地物图像(例如遥感影像等)来对地物对象执行识别。然而，目前使用机器学习对地物图像执行处理的方案仍存在表现欠佳等缺陷。

2、因此，需要能够改进地物图像处理的方案。

技术实现思路

1、本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。

2、在一个方面中，提供了一种用于处理地物图像的方法，包括：通过特征提取器提取所述地物图像的特征；基于所述特征生成所述地物图像的令牌特征和候选查询特征；基于所述令牌特征使用transformer编码器生成编码器输出；基于所述候选查询特征和与所述地物图像中的对象相关联的一个或多个第二对象的轨迹信息生成查询特征；以及将所述编码器输出和所述查询特征输入到transformer解码器以生成所述地物图像的增强表示。

3、优选地，所述方法进一步包括：将所述增强表示输入到前馈网络，对所述地物图像中的所述对象执行分类。

4、优选地，所述方法进一步包括：当所述分类为指定分类时，预测与所述对象相关联的轮廓坐标集合。

5、优选地，所述方法进一步包括：基于所述轮廓坐标集合来生成所述第二对象的地理围栏。

6、优选地，所述特征提取器为视觉transformer模型或卷积神经网络。

7、优选地，所述轨迹信息为所述第二

8、优选地，基于所述令牌特征使用transformer编码器生成编码器输出进一步包括：基于所述令牌特征和所述地物图像的位置编码来使用transformer编码器生成编码器输出。

9、优选地，基于所述候选查询特征和与所述地物图像中的对象相关联的轨迹信息生成查询特征包括：基于所述候选查询特征和所述轨迹信息生成注意力热图；以及对所述注意力热图执行池化以生成所述查询特征。

10、优选地，将所述编码器输出作为所述transformer解码器的多头注意力机制的输入中的键和值，且将所述查询特征作为所述多头注意力机制的输入中的查询。

11、优选地，基于所述特征生成所述地物图像的令牌特征和候选查询特征包括：对所述特征进行降维以减小所述特征的通道尺度。

12、优选地，所述地物图像为遥感影像。

13、在另一方面，公开了一种用于处理地物图像的系统，包括：特征提取模块，用于通过特征提取器提取所述地物图像的特征；特征映射模块，用于基于所述特征生成所述地物图像的令牌特征和候选查询特征；transformer编码器模块，用于基于所述令牌特征使用transformer编码器生成编码器输出；查询特征生成模块，用于基于所述候选查询特征和与所述地物图像中的对象相关联的一个或多个第二对象的轨迹信息生成查询特征；以及transformer解码器模块，用于基于所述编码器输出和所述查询特征使用transformer解码器以生成所述地物图像的增强表示。

14、优选地，所述系统进一步包括：预测模块，用于将所述增强表示输入到前馈网络，对所述地物图像中的所述对象执行分类；以及当所述分类为指定分类时，预测与所述对象相关联的轮廓坐标集合。

15、在又另一方面中，提供了一种用于处理地物图像的装置，包括处理器；以及与所述处理器耦合的存储器，所述存储器存储有处理器可执行指令，所述指令在被所述处理器执行时使所述处理器执行如上所述的方法。

16、在又另一方面中，提供了一种非瞬态处理器可读存储介质，包括处理器可执行指令，所述指令在被处理器执行时使所述处理器执行如上所述的方法。

17、本说明书一个或多个实施例能够实现以下技术效果中的一者或多者：

18、能够提升对地物图像的对象识别/分类的精度；

19、能够提升对地物图像的对象识别/分类的效率；

20、能够预测地理围栏的坐标集合。

本文档来自技高网...

【技术保护点】

1.一种用于处理地物图像的方法，包括：

2.如权利要求1所述的方法，进一步包括：

3.如权利要求2所述的方法，进一步包括：

4.如权利要求3所述的方法，进一步包括：

5.如权利要求1所述的方法，其中所述特征提取器为视觉Transformer模型或卷积神经网络。

6.如权利要求1所述的方法，其中所述轨迹信息为所述第二对象的运动路径的轨迹坐标集合。

7.如权利要求1所述的方法，其中基于所述令牌特征使用Transformer编码器生成编码器输出进一步包括：

8.如权利要求1所述的方法，其中基于所述候选查询特征和与所述地物图像中的对象相关联的轨迹信息生成查询特征包括：

9.如权利要求1所述的方法，其中将所述编码器输出作为所述Transformer解码器的多头注意力机制的输入中的键和值，且将所述查询特征作为所述多头注意力机制的输入中的查询。

10.如权利要求1所述的方法，其中基于所述特征生成所述地物图像的令牌特征和候选查询特征包括：对所述特征进行降维以减小所述特征的通道尺度。

...

【技术特征摘要】

1.一种用于处理地物图像的方法，包括：

2.如权利要求1所述的方法，进一步包括：

3.如权利要求2所述的方法，进一步包括：

4.如权利要求3所述的方法，进一步包括：

5.如权利要求1所述的方法，其中所述特征提取器为视觉transformer模型或卷积神经网络。

6.如权利要求1所述的方法，其中所述轨迹信息为所述第二对象的运动路径的轨迹坐标集合。

7.如权利要求1所述的方法，其中基于所述令牌特征使用transformer编码器生成编码器输出进一步包括：

8.如权利要求1所述的方法，其中基于所述候选查询特征和与所述地物图像中的对象相关联的轨迹信息生成查询特征包括：

9.如权利要求1所述的方法...

【专利技术属性】
技术研发人员：张营营，劳江微，王剑，陈景东，褚崴，何慧梅，胡丁相，邹旭苗，张秋奕，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人