一种交通领域的场景识别分类的底层推理方法技术

技术编号：41181934 阅读：3 留言：0更新日期：2024-05-07 22:15

本发明专利技术公开了一种交通领域的场景识别分类的底层推理方法，其技术方案要点是：包括以下具体步骤：步骤一、图片特征的提取，直接将多模态大模型的视觉部分转换为兼容底层设备的ONNX模型结构，在底层硬件上进行图像特征提取；步骤二、交通场景特征向量数据库的创建，在服务器中调用多模态的文本模态的模型，对设计好的交通场景的分类用提示词进行嵌入和编码就可以得到特征向量数据库，特征向量数据库和图像模态相匹配，使用特征向量数据库替代文本模态模型；可合理使用视觉模态的特征提取，就可以抛弃文本模态，将多模态模型的权重至少减掉1/3，可以拥有大模型的能力完成这类任务，同时又能更少的依赖硬件资源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通场景识别，特别涉及一种交通领域的场景识别分类的底层推理方法。

技术介绍

1、一些交通领域的目标检测任务，传统cnn模型表现效果欠佳，体现在检测准确度低，鲁棒性差。例如：检测路面是否有火灾，是否有遗留物等。如果使用图文多模态大模型，对全图语义进行理解可以很好的完成这一任务，但是大模型的权重参数过大，推理需要的硬件资源过高。

2、交通领域的图像检测和分类，使用传统cnn框架的模型，依旧受模型参数过小，训练集不够多样性所困扰，因而很难在特定分类任务上达成非常好的性能。

3、大模型，依靠优秀的预训练，获取了丰富的权重知识，但是过于庞大的权重和过于先进的算子又无法很好兼容底层硬件设备。

技术实现思路

1、针对
技术介绍
中提到的问题，本专利技术的目的是提供一种交通领域的场景识别分类的底层推理方法，以解决
技术介绍
中提到的问题。

2、本专利技术的上述技术目的是通过以下技术方案得以实现的：

3、一种交通领域的场景识别分类的底层推理方法，包括以下具体步骤：

4、步骤一、图片特征的提取，直接将多模态大模型的视觉部分转换为兼容底层设备的onnx模型结构，在底层硬件上进行图像特征提取；

5、步骤二、交通场景特征向量数据库的创建，在服务器中调用多模态的文本模态的模型，对设计好的交通场景的分类用提示词进行嵌入和编码就可以得到特征向量数据库，特征向量数据库和图像模态相匹配，使用特征向量数据库替代文本模态模型，特征向量数据库中包

6、步骤三、场景图像的检测和捕获，结合目标检测模型以及传统cnn模型的检测能力，构建图像特征提取模块，图像特征提取模块用于拾取目标图像，再由多模态大模型进行语义理解分类目标图像的属性，达成检测任务；

7、步骤四、交通场景信息的获取，使用特征向量数据库中的向量数据与底层硬件设备上部署的图像模态大模型推理的图像特征矩阵，做余弦相似匹配计算，依据匹配度打分，用于获得等同于多模态大模型的推理效果，将步骤三、场景图像的检测和捕获中的拾取目标图像，首先经过图像特征提取模块获得图像特征向量数据，获得图像特征向量数据与交通场景特征向量库匹配，查询最匹配的向量数据，解码为文本数据，获得当前图片中的交通场景信息。

8、较佳的，所述特征向量数据库的生成包括通过语言大模型生成，与使用少量图像数据进行反向传播训练生成得到。

9、较佳的，所述多模态大模型是基于深度学习和自然语言处理的技术，用于同时处理图像和文本数据，从中提取特征并进行联合分析，所述多模态大模型主要包括视觉处理模块和语言处理模块。

10、较佳的，所述视觉处理模块用于处理图像数据，能够接受输入的图像，并通过卷积神经网络等技术提取图像的特征，所述视觉处理模块将提取的特征编码成向量表示，用于后续的联合分析。

11、较佳的，所述语言处理模块用于负责处理文本数据，接受输入的文本，经过词嵌入和循环神经网络等处理得到文本的语义表示，并理解文本的含义和语境，并将其编码成向量表示，用于与所述视觉处理模块的特征进行联合分析。

12、较佳的，所述图像的特征包括颜色特征、纹理特征和形状特征。

13、较佳的，所述特征向量数据库中设置有向量相似性搜索单元、管理矢量数据单元、工作负载管理单元和访问控制单元，所述向量相似性搜索单元用于搜索所述特征向量数据库内的相似向量数据，用于检索，所述管理矢量数据单元哟用于管理所述特征向量数据库中的矢量数据。

14、较佳的，所述传统cnn模型采用lenet-5模型、alexnet模型、vggnet模型和googlenet模型中的一个或多个。

15、较佳的，所述目标检测模型采用yolov1目标检测模型、yolov2目标检测模型、yolov3目标检测模型和yolov4目标检测模型中的一种或者多种。

16、综上所述，本专利技术主要具有以下有益效果：

17、第一、该交通领域的场景识别分类的底层推理方法中，设计创建一个特征向量数据库，和图像模态相匹配，使用特征向量数据库替代文本模态模型，特征向量数据库中包含了我们需要分类的所有的场景类型的文本向量数据，结合目标检测模型以及传统cnn模型的检测能力，构建图像特征提取模块，图像特征提取模块用于拾取目标图像，再由多模态大模型进行语义理解分类目标图像的属性，达成检测任务，使用特征向量数据库中的向量数据与底层硬件设备上部署的图像模态大模型推理的图像特征矩阵，做余弦相似匹配计算，依据匹配度打分，用于获得等同于多模态大模型的推理效果，将步骤三、场景图像的检测和捕获中的拾取目标图像，首先经过图像特征提取模块获得图像特征向量数据，获得图像特征向量数据与交通场景特征向量库匹配，查询最匹配的向量数据，解码为文本数据，获得当前图片中的交通场景信息；

18、第二、该交通领域的场景识别分类的底层推理方法中，多模态大模型的视觉vit大模型和文本模态做过很好的对齐，视觉模态提取的特征非常符合全图语义的理解，合理使用视觉模态的特征提取，就可以抛弃文本模态，将多模态模型的权重至少减掉1/3，可以拥有大模型的能力完成这类任务，同时又能更少的依赖硬件资源。

本文档来自技高网...

【技术保护点】

1.一种交通领域的场景识别分类的底层推理方法，其特征在于：包括以下具体步骤：

2.根据权利要求1所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述特征向量数据库的生成包括通过语言大模型生成，与使用少量图像数据进行反向传播训练生成得到。

3.根据权利要求1所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述多模态大模型是基于深度学习和自然语言处理的技术，用于同时处理图像和文本数据，从中提取特征并进行联合分析，所述多模态大模型主要包括视觉处理模块和语言处理模块。

4.根据权利要求3所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述视觉处理模块用于处理图像数据，能够接受输入的图像，并通过卷积神经网络等技术提取图像的特征，所述视觉处理模块将提取的特征编码成向量表示，用于后续的联合分析。

5.根据权利要求4所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述语言处理模块用于负责处理文本数据，接受输入的文本，经过词嵌入和循环神经网络等处理得到文本的语义表示，并理解文本的含义和语境，并将其编码成

6.根据权利要求4所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述图像的特征包括颜色特征、纹理特征和形状特征。

7.根据权利要求1所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述特征向量数据库中设置有向量相似性搜索单元、管理矢量数据单元、工作负载管理单元和访问控制单元，所述向量相似性搜索单元用于搜索所述特征向量数据库内的相似向量数据，用于检索，所述管理矢量数据单元哟用于管理所述特征向量数据库中的矢量数据。

8.根据权利要求1所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述传统CNN模型采用LeNet-5模型、AlexNet模型、VGGNet模型和GoogLeNet模型中的一个或多个。

9.根据权利要求1所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述目标检测模型采用YoloV1目标检测模型、YoloV2目标检测模型、YoloV3目标检测模型和YoloV4目标检测模型中的一种或者多种。

...

【技术特征摘要】

1.一种交通领域的场景识别分类的底层推理方法，其特征在于：包括以下具体步骤：

5.根据权利要求4所述的一种交通领域的场景识别分类的底层推理方法，其特征在于：所述语言处理模块用于负责处理文本数据，接受输入的文本，经过词嵌入和循环神经网络等处理得到文本的语义表示，并理解文本的含义和语...

【专利技术属性】
技术研发人员：张涛，甘智峰，张东海，
申请(专利权)人：上海新前端奕天科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人