当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于区域提示的视觉语言目标检测器Zone-YOLO制造技术

技术编号:43334626 阅读:21 留言:0更新日期:2024-11-15 20:31
本发明专利技术提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO,包括视觉编码器、文本编码器、Scale‑Aware VL‑PAN Neck、word embedding单词嵌入、zone prompts区域提示、Adapter适配器、Text Contrastive Head图文对比头、Zone Head,其中。本发明专利技术首创了尺度感知多模态融合模块,充分挖掘文本特征,学习在不同尺度下无缝融合多模态表征;本发明专利技术提出一种新的区域提示学习模块,将文本特征引入回归头,并捕获区域‑类别‑实例三重共现信息,显著提高了模型的定位性能。大量实验表明,Zone YOLO取得了具有竞争力的结果,并证明了基于预训练VLOD的闭集检测微调的优越性。

【技术实现步骤摘要】

本专利技术涉及一种zone-yolo,为一种基于区域提示的视觉语言目标检测实现方案。


技术介绍

1、目标检测是机器视觉的一项重要任务,用于对图像中的region of interest(roi)进行识别和定位,同时是图像理解、视觉定位等众多任务的基础。在过去的几十年里,目标检测方面的工作取得了重大突破。这些方法可以被大致分为以faster rcnn为代表的两阶段检测器,和以detr系列和yolo系列为代表的单阶段检测器。前者将目标检测分为区域提示和提示优化两个子任务,但推理速度较慢。后者将检测过程融合为一个阶段中,使用端到端的架构与轻量的backbone,在实时目标检测上表现出色,被广泛应用在智能交通、缺陷检测和遥感技术等领域。

2、视觉语言模型(vision-language models,vlms)通过融合多模态信息,可以得到更为通用和鲁棒的特征表示。基于视觉语言模型的目标检测(vlod)方法,通过文本编码器,从文本中获取更多的语义信息,缓解单视觉模态方法存在的语义不足问题,从而显著提升检测效果。

3、vlod的研究有两个值得关本文档来自技高网...

【技术保护点】

1.一种基于区域提示的视觉语言目标检测器Zone-YOLO,其特征在于,包括视觉编码器、文本编码器、Scale-Aware VL-PAN Neck、word embedding(单词嵌入)、zone prompts(区域提示)、Adapter、Text Contrastive Head(图文对比头)、Zone Head,其中:

2.如权利要求1所述的一种基于区域提示的视觉语言目标检测器Zone-YOLO,其特征在于,

3.如权利要求2所述的一种基于区域提示的视觉语言目标检测器Zone-YOLO,其特征在于,

4.如权利要求2所述的一种基于区域提示的视觉...

【技术特征摘要】

1.一种基于区域提示的视觉语言目标检测器zone-yolo,其特征在于,包括视觉编码器、文本编码器、scale-aware vl-pan neck、word embedding(单词嵌入)、zone prompts(区域提示)、adapter、text contrastive head(图文对比头)、zone head,其中:

2.如权利要求1所述的一种基于区域提示的视觉语言目标检测器zone-yolo,其特征在于,

3.如权利要求2所述的一种基于...

【专利技术属性】
技术研发人员:贾宁杨嘉雄柳先辉
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1