【技术实现步骤摘要】
本专利技术涉及一种zone-yolo,为一种基于区域提示的视觉语言目标检测实现方案。
技术介绍
1、目标检测是机器视觉的一项重要任务,用于对图像中的region of interest(roi)进行识别和定位,同时是图像理解、视觉定位等众多任务的基础。在过去的几十年里,目标检测方面的工作取得了重大突破。这些方法可以被大致分为以faster rcnn为代表的两阶段检测器,和以detr系列和yolo系列为代表的单阶段检测器。前者将目标检测分为区域提示和提示优化两个子任务,但推理速度较慢。后者将检测过程融合为一个阶段中,使用端到端的架构与轻量的backbone,在实时目标检测上表现出色,被广泛应用在智能交通、缺陷检测和遥感技术等领域。
2、视觉语言模型(vision-language models,vlms)通过融合多模态信息,可以得到更为通用和鲁棒的特征表示。基于视觉语言模型的目标检测(vlod)方法,通过文本编码器,从文本中获取更多的语义信息,缓解单视觉模态方法存在的语义不足问题,从而显著提升检测效果。
3、vlo
...【技术保护点】
1.一种基于区域提示的视觉语言目标检测器Zone-YOLO,其特征在于,包括视觉编码器、文本编码器、Scale-Aware VL-PAN Neck、word embedding(单词嵌入)、zone prompts(区域提示)、Adapter、Text Contrastive Head(图文对比头)、Zone Head,其中:
2.如权利要求1所述的一种基于区域提示的视觉语言目标检测器Zone-YOLO,其特征在于,
3.如权利要求2所述的一种基于区域提示的视觉语言目标检测器Zone-YOLO,其特征在于,
4.如权利要求2所述的一
...【技术特征摘要】
1.一种基于区域提示的视觉语言目标检测器zone-yolo,其特征在于,包括视觉编码器、文本编码器、scale-aware vl-pan neck、word embedding(单词嵌入)、zone prompts(区域提示)、adapter、text contrastive head(图文对比头)、zone head,其中:
2.如权利要求1所述的一种基于区域提示的视觉语言目标检测器zone-yolo,其特征在于,
3.如权利要求2所述的一种基于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。