一种基于视觉大模型的视觉检测方法技术

技术编号：44556151 阅读：21 留言：0更新日期：2025-03-11 14:17

本发明专利技术主要公开了一种基于视觉大模型的视觉检测方法，包括：获取用户文字指令，使用自然语言处理模型提取用户文字指令的文字特征向量；根据文字特征向量生成视觉检测任务，并配置视觉检测任务的相关参数；从视频源中按照视觉检测任务的相关参数抽取图像帧，提取抽取的图像帧的图像特征向量；比较每帧抽取的图像帧的图像特征向量与用户文字指令的文字特征向量的相似度，若超过了预设的阈值，则生成告警指令，以提高视觉检测的灵活性和适用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子信息，特别涉及一种基于视觉大模型的视频检测方法。

技术介绍

1、随着信息技术的飞速发展，监控设备端有时候需要监测有无人员闯入，有时候需要检查有无垃圾堆放在公共场所。然而，传统的视觉检测通常需要预先设定任务类型和参数，当需要从监测有无人员闯入转化为检测有无垃圾堆放，则需要工作人员重新设置设定任务类型和参数等，缺乏灵活性和自适应性。因此，需要一种新的系统，以提高系统的灵活性和适用性。

技术实现思路

1、为解决前述的至少一个技术问题，本公开在第一方面提出了一种基于视觉大模型的视觉检测方法，包括：获取用户文字指令，使用自然语言处理模型提取用户文字指令的文字特征向量；根据文字特征向量生成视觉检测任务，并配置视觉检测任务的相关参数；从视频源中按照视觉检测任务的相关参数抽取图像帧，提取抽取的图像帧的图像特征向量；比较每帧抽取的图像帧的图像特征向量与用户文字指令的文字特征向量的相似度，若超过了预设的阈值，则生成告警指令。

2、优选的，还包括：自然语言处理模型为预训练的bert...

【技术保护点】

1.一种基于视觉大模型的视觉检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：自然语言处理模型为预训练的BERT模型，将文字特征向量存储到指令向量数据库中；预设的阈值根据历史数据动态调整。

3.根据权利要求1所述的方法，其特征在于，“根据文字特征向量生成视觉检测任务，并配置视觉检测任务的相关参数；”包括：

4.根据权利要求3所述的方法，其特征在于，视觉检测任务包括：目标检测、实例分割、语义分割、关键点检测、人脸识别、行人检测、车辆检测、异常检测、多目标跟踪、文本检测；相应的参数包括：轮巡时间、检测区域、、锚框尺度、NMS阈...

【技术特征摘要】

1.一种基于视觉大模型的视觉检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：自然语言处理模型为预训练的bert模型，将文字特征向量存储到指令向量数据库中；预设的阈值根据历史数据动态调整。

3.根据权利要求1所述的方法，其特征在于，“根据文字特征向量生成视觉检测任务，并配置视觉检测任务的相关参数；”包括：

4.根据权利要求3所述的方法，其特征在于，视觉检测任务包括：目标检测、实例分割、语义分割、关键点检测、人脸识别、行人检测、车辆检测、异常检测、多目标跟踪、文本检测；相应的参数包括：轮巡时间、检测区域、、锚框尺度、nms阈值、掩码阈值。

5.根据权利要求1所述的方法，其特征在于，视觉检测任务包括一个任务或者至少两个同时进行的任务；用户文字指令包括文字描...

【专利技术属性】
技术研发人员：蔡升，
申请(专利权)人：广东魅视科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人