基于多模态大模型的城市事件检测方法、装置及存储介质制造方法及图纸

技术编号：44929002 阅读：26 留言：0更新日期：2025-04-08 19:09

本申请公开了一种基于多模态大模型的城市事件检测方法、装置及存储介质，涉及计算机应用技术领域。该方法包括：获取公开数据集和城市事件的事件数据集；构建包括视觉编码器、线性投影层和大语言模型在内的多模态识别模型；建立对多模态识别模型的阶段训练方式，并基于公开数据集与事件数据集对多模态识别模型分阶段进行训练；将待测数据输入训练后的多模态识别模型，得到事件识别结果。本申请实施例实现了在城市事件检测过程中减少多模态识别模型数量，提高多模态识别模型迁移学习能力和对新场景的泛化能力、节约多模态识别模型训练时间和资源，使得多模态识别模型的维护和升级过程较为简便的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机应用，尤其涉及一种基于多模态大模型的城市事件检测方法、装置及存储介质。

技术介绍

1、城市事件检测是城市管理中一项非常重要的任务。摄像头、无人机等设备会拍摄大量的图像、视频等数据，通过大模型对这些数据进行分析，快速发现异常事件，并通知城市管理者采取有效的措施，及时处理这些事件，确保城市的秩序和市民的安全。

2、在现有技术中，多采用若干特定的小模型来对这些任务进行识别与分析。然而小模型往往在处理城市复杂多变的事件时，往往表现出不足的迁移学习能力以及对新场景的泛化能力，导致城市管理人员不得不为不同的事件任务分别设计和训练专用模型。这不仅占用大量时间和资源，而且随着事件任务种类的增多，需要维护和升级的小模型数量也在不断增加，增大了管理和维护工作的压力和挑战。

3、另外，由于城市事件任务的检测过程往往需要考虑到具体的场景和需求，如一种检测模型在商业区表现良好，可能在居民区就不适用。因此，小模型需要不断地定制和调整，这增加了模型商业化的成本，也使得快速部署变得更加困难。

技术实现思路

本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的城市事件检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述文本数据集，包括：

3.根据权利要求1所述的方法，其特征在于，所述标注数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述公开数据集输入所述线性投影层进行训练，以实现视觉特征与文本特征对齐，包括：

5.根据权利要求4所述的方法，其特征在于，所述初始训练，包括：

6.根据权利要求4所述的方法，其特征在于，所述微调训练，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述基于所述公开数据集与...

【技术特征摘要】