一种基于视觉文本大规模预训练模型的火焰检测方法技术

技术编号：40119202 阅读：10 留言：0更新日期：2024-01-23 20:23

本发明专利技术公开一种基于视觉文本大规模预训练模型的火焰检测方法，具体步骤如下：获取视觉文本大规模预训练模型；将预训练模型在图像描述生成数据集、视觉问答数据集和视觉文本检索数据集上进行微调，分别得到描述生成模型、视觉问答模型和视觉文本检索模型；利用多专家模式集成上述三个模型，获得多专家火焰检测模型，多专家火焰检测模型通过对三个模型的输出结果进行融合，判断所述待检测图像中是否存在火焰，最终高质量完成火焰检测任务。本发明专利技术以视觉文本大规模预训练模型为核心，进而提出多专家火焰检测模型，其具备强泛化能力、上下文理解能力和推理能力，无需特定火焰数据训练的任务场景情况下也能取得良好的性能，具有更广阔的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，特别地涉及一种基于视觉文本大规模预训练模型的火焰检测方法。

技术介绍

1、火焰具有极其危险和破坏性的特点，其能够快速点燃可燃物并迅速蔓延，造成广泛的破坏。例如，在经济方面，火灾带来的破坏和损失巨大，修复和重建成本高昂，企业和个人财产遭受重创，对商业和就业产生负面影响。此外，在环境方面，火灾会释放出大量的烟雾、有毒气体和灰尘，对空气质量和环境造成严重影响，加剧全球变暖和气候变化。因此，如何预防火焰来减少火灾危害至关重要。

2、近年来，基于目标检测的火焰检测方法吸引了广泛的研究。此类方法利用诸如yolov5等成熟的目标检测框架来完成火焰检测。然而，基于目标检测的火焰检测方法在实践中往往面临着可学习样本少、样本难收集和样本复杂多变等特点，使得训练得到的模型很容易过拟合，并且泛化能力较弱。这导致基于目标检测的火焰检测方法难以应用到现实场景中。

3、近来，视觉文本大规模预训练模型的出现使得上述挑战得以缓解。具体来说，视觉文本大规模预训练模型是由海量的视觉和文本数据训练得到，具备强大的上下文理解和推理能力，能够更好地应对复杂的场景和语义上下文，拥有出众的泛化能力，其使得在无需特定数据训练的任务场景情况下也能取得良好的性能。因此，如何利用视觉文本大规模预训练模型实现火焰检测成为挑战。

技术实现思路

1、针对以上问题，本专利技术提出了一种基于视觉文本大规模预训练模型的火焰检测方法。本专利技术具体采用的技术方案如下：

2、一种基于视觉

3、s1、将视觉文本大规模预训练模型在图像描述生成数据集上进行微调，得到用于火焰检测的描述生成模型；所述描述生成模型中的判断流程为：将待检测图像输入所述描述生成模型中，所述描述生成模型输出n个文本描述，检测n个文本描述中是否包含与火焰相关的关键词，根据检测结果判断待检测图像中是否存在火焰；

4、s2、将视觉文本大规模预训练模型在视觉问答数据集上进行微调，得到用于火焰检测的视觉问答模型；所述视觉问答模型中的判断流程为：将待检测图像和o个文本查询一起输入到所述视觉问答模型中，每个文本查询均为提问图像中是否存在火焰的提问句，所述视觉问答模型输出对应的o个回答结果，根据回答结果判断待检测图像中是否存在火焰；

5、s3、将视觉文本大规模预训练模型在视觉文本检索数据集上进行微调，得到用于火焰检测的视觉文本检索模型；所述视觉文本检索模型中的判断流程为：将待检测图像和q个文本描述一起输入到所述视觉文本检索模型中，每个文本描述均为与火焰相关的关键词，所述视觉文本检索模型输出视觉特征和每个文本描述的文本特征，计算视觉特征和每个文本特征之间的相似度，利用阈值法判断待检测图像中是否存在火焰；

6、s4、利用多专家模式集成所述描述生成模型、视觉问答模型和视觉文本检索模型，得到多专家火焰检测模型，多专家火焰检测模型通过对三个模型的输出结果进行融合，最终判断所述待检测图像中是否存在火焰。

7、作为优选，所述视觉文本大规模预训练模型采用blip模型。

8、作为优选，所述与火焰相关的关键词为“火”和“火焰”的同义词，或者能发光发亮且能够燃烧的物质名称。

9、作为优选，所述s1中，根据检测结果判断给定图像中是否存在火焰的方法为：若任意一个文本描述中包含所述与火焰相关的关键词，则认为待检测图像中存在火焰。

10、作为优选，所述s2中，根据回答结果判断给定图像中是否存在火焰的方法为：若任意一个回答结果中显示图像中存在火焰，则认为待检测图像中存在火焰。

11、作为优选，所述s3中，对于视觉特征s和每个文本特征wi∈{w1,w2,…,wq}，两者之间的相似度xi∈{x1,x2,…,xq}的计算函数形式为：

12、

13、其中，·表示点积；*表示乘积；||·||表示l2范数；

14、作为优选，所述s3中，利用阈值法判断待检测图像中是否存在火焰的方法为：将视觉特征和每个文本特征之间的相似度值与设定的相似度阈值进行比较，若任意一个相似度值高于设定的相似度阈值，则认为待检测图像中存在火焰。

15、作为优选，所述相似度阈值为0.2。

16、作为优选，所述s4中，所述多专家火焰检测模型对三个模型的输出结果进行融合的方法为：若多专家火焰检测模型判定存在火焰的专家数量超过设定的数量阈值，则最终认为待检测图像中存在火焰。

17、作为优选，所述s4中，所述数量阈值为2。

18、本专利技术与现有技术相比，具有以下特点：

19、1)本专利技术以视觉文本大规模预训练模型为核心，通过在图像描述生成数据集、视觉问答数据集和视觉文本检索数据集上进行微调，并利用多专家模式对上述三个步骤进行集成，最终实现准确检测火焰的目标。

20、2)本专利技术提出的多专家火焰检测模型具有强大的泛化能力、上下文理解能力和推理能力，无需特定火焰数据训练的任务场景情况下也能取得良好的性能。本专利技术可以缓解过去基于目标检测的火焰检测方法面临的模型泛化能力弱问题，具有更好的实际应用价值。

本文档来自技高网...

【技术保护点】

1.一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述视觉文本大规模预训练模型采用BLIP模型。

3.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述与火焰相关的关键词为“火”和“火焰”的同义词，或者能发光发亮且能够燃烧的物质名称。

4.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述S1中，根据检测结果判断给定图像中是否存在火焰的方法为：若任意一个文本描述中包含所述与火焰相关的关键词，则认为待检测图像中存在火焰。

5.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述S2中，根据回答结果判断给定图像中是否存在火焰的方法为：若任意一个回答结果中显示图像中存在火焰，则认为待检测图像中存在火焰。

6.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述S3中，对于视觉特征S和每

7.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述S3中，利用阈值法判断待检测图像中是否存在火焰的方法为：将视觉特征和每个文本特征之间的相似度值与设定的相似度阈值进行比较，若任意一个相似度值高于设定的相似度阈值，则认为待检测图像中存在火焰。

8.根据权利要求7所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述相似度阈值为0.2。

9.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述S4中，所述多专家火焰检测模型对三个模型的输出结果进行融合的方法为：若多专家火焰检测模型判定存在火焰的专家数量超过设定的数量阈值，则最终认为待检测图像中存在火焰。

10.根据权利要求9所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述S4中，所述数量阈值为2。

...

【技术特征摘要】

1.一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述视觉文本大规模预训练模型采用blip模型。

4.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述s1中，根据检测结果判断给定图像中是否存在火焰的方法为：若任意一个文本描述中包含所述与火焰相关的关键词，则认为待检测图像中存在火焰。

5.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其特征在于，所述s2中，根据回答结果判断给定图像中是否存在火焰的方法为：若任意一个回答结果中显示图像中存在火焰，则认为待检测图像中存在火焰。

6.根据权利要求1所述的一种基于视觉文本大规模预训练模型的火焰检测方法，其...

【专利技术属性】
技术研发人员：李玺，缪佩翰，励雪巍，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人