基于多模态大模型的图像地理定位方法、装置及设备制造方法及图纸

技术编号:43858045 阅读:38 留言:0更新日期:2024-12-31 18:47
本发明专利技术提供一种基于多模态大模型的图像地理定位方法、装置及设备,涉及人工智能技术领域,包括:获取训练数据集,训练数据集包括多张图像;对于每一图像,对图像的GPS坐标特征进行等地球投影的GPS坐标表征以及基于随机傅里叶特征进行编码,得到图像的GPS坐标特征向量;对于每一图像,对图像进行图文协同编码,得到图像的图像特征和文本特征融合生成的协同编码特征向量;将GPS坐标特征向量和协同编码特征向量输入大模型,基于GPS坐标特征向量的嵌入和协同编码特征的嵌入相似性,对大模型进行多模态对比训练,得到训练好的大模型,将待定位图像输入训练好的大模型,输出待定位图像的经度坐标值和纬度坐标值。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体涉及一种基于多模态大模型的图像地理定位方法及装置、设备。


技术介绍

1、随着全球社交媒体平台普及,网络空间中积累了大量的专利技术可用的图像,这些图像不仅数量庞大,而且蕴含着丰富的潜在价值,其中地理位置信息提供了图像的地理背景或拍摄地点,对于深入提取图像的信息具有重要价值,如网络空间测绘、情报获取、图像目标定位、社会网络分析、公共安全、城市规划、环境监测等等。然而,据统计研究分析,目前即时社交平台上大约只有2%的图像标注有地理位置,相关专业图像网站上也只有大约25%,所以图像地理定位技术具有较高的实际应用价值。

2、图像地理定位是指给定一张图像确定其拍摄地点或拍摄内容的地理位置,其可以服务于图像检索、图像匹配以及跨模态图像发现等下游任务,该技术在各种应用中都具有重要的意义,如导航、旅游、侦察和安全等。图像地理定位技术按照定位范围可以划分为区域地理定位、自然和城市区域定位和全球地理定位等。其中,全球地理定位是图像地理定位技术任务的终极目标,但由于全球的地理景观图像数量巨大且变化多样,构建一个覆盖整个世界的大型图像库难以实本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的图像地理定位方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述图像的GPS坐标进行等地球投影的GPS坐标表征,包括:

3.根据权利要求2所述的方法,其特征在于,对所述图像的GPS坐标,基于随机傅里叶特征进行编码,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述图像进行图文协同编码,得到所述图像的图像特征和文本特征融合生成的协同编码特征向量,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述GPS坐标特征向量的嵌入和所述协同编码特征的嵌入相似性,对所述大模型进行多模态对...

【技术特征摘要】

1.一种基于多模态大模型的图像地理定位方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述图像的gps坐标进行等地球投影的gps坐标表征,包括:

3.根据权利要求2所述的方法,其特征在于,对所述图像的gps坐标,基于随机傅里叶特征进行编码,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述图像进行图文协同编码,得到所述图像的图像特征和文本特征融合生成的协同编码特征向量,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述gps坐标特征向量的嵌入和所述协同编码特征的嵌入相似性,对所述大模型进行多模态对...

【专利技术属性】
技术研发人员:李晓宇马益杭金力石文关世昌
申请(专利权)人:中国科学院空天信息创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1