一种基于区域提示的视觉语言目标检测器Zone-YOLO制造技术

技术编号：43334626 阅读：21 留言：0更新日期：2024-11-15 20:31

本发明专利技术提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO，包括视觉编码器、文本编码器、Scale‑Aware VL‑PAN Neck、word embedding单词嵌入、zone prompts区域提示、Adapter适配器、Text Contrastive Head图文对比头、Zone Head，其中。本发明专利技术首创了尺度感知多模态融合模块，充分挖掘文本特征，学习在不同尺度下无缝融合多模态表征；本发明专利技术提出一种新的区域提示学习模块，将文本特征引入回归头，并捕获区域‑类别‑实例三重共现信息，显著提高了模型的定位性能。大量实验表明，Zone YOLO取得了具有竞争力的结果，并证明了基于预训练VLOD的闭集检测微调的优越性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种zone-yolo，为一种基于区域提示的视觉语言目标检测实现方案。

技术介绍

1、目标检测是机器视觉的一项重要任务，用于对图像中的region of interest(roi)进行识别和定位，同时是图像理解、视觉定位等众多任务的基础。在过去的几十年里，目标检测方面的工作取得了重大突破。这些方法可以被大致分为以faster rcnn为代表的两阶段检测器，和以detr系列和yolo系列为代表的单阶段检测器。前者将目标检测分为区域提示和提示优化两个子任务，但推理速度较慢。后者将检测过程融合为一个阶段中，使用端到端的架构与轻量的backbone，在实时目标检测上表现出色，被广泛应用在智能交通、缺陷检测和遥感技术等领域。

2、视觉语言模型(vision-language models，vlms)通过融合多模态信息，可以得到更为通用和鲁棒的特征表示。基于视觉语言模型的目标检测(vlod)方法，通过文本编码器，从文本中获取更多的语义信息，缓解单视觉模态方法存在的语义不足问题，从而显著提升检测效果。

3、vlo...

【技术保护点】

1.一种基于区域提示的视觉语言目标检测器Zone-YOLO，其特征在于，包括视觉编码器、文本编码器、Scale-Aware VL-PAN Neck、word embedding(单词嵌入)、zone prompts(区域提示)、Adapter、Text Contrastive Head(图文对比头)、Zone Head，其中：

2.如权利要求1所述的一种基于区域提示的视觉语言目标检测器Zone-YOLO，其特征在于，

3.如权利要求2所述的一种基于区域提示的视觉语言目标检测器Zone-YOLO，其特征在于，

4.如权利要求2所述的一种基于区域提示的视觉...

【技术特征摘要】

1.一种基于区域提示的视觉语言目标检测器zone-yolo，其特征在于，包括视觉编码器、文本编码器、scale-aware vl-pan neck、word embedding(单词嵌入)、zone prompts(区域提示)、adapter、text contrastive head(图文对比头)、zone head，其中：

2.如权利要求1所述的一种基于区域提示的视觉语言目标检测器zone-yolo，其特征在于，

3.如权利要求2所述的一种基于...

【专利技术属性】
技术研发人员：贾宁，杨嘉雄，柳先辉，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人