基于多模态表征的图像训练数据集生成方法及终端技术

技术编号：40402789 阅读：5 留言：0更新日期：2024-02-20 22:27

本发明专利技术公开的基于多模态表征的图像训练数据集生成方法及终端，该方法包括：获取目标文本信息和区域图像；通过预设的语义图像模型根据所述目标文本信息生成目标图像；对所述目标图像进行裁剪得到待检测目标；通过预设的语义分割模型在所述区域图像中确定候选位置；将所述待检测目标贴附至所述候选位置，并对所述待检测目标进行标注，得到目标数据集样本。由同一个待检测目标贴附在多个不同的候选位置中，生成多个不同目标数据集样本，不仅不需要人工生成额外的待检测目标图像，还解决了待检测目标图像难以搜集的问题，提高了用于训练深度学习模型的数据集的多样性，避免由于训练样本匮乏而造成的模型过拟合问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其涉及一种基于多模态表征的图像训练数据集生成方法及终端。

技术介绍

1、山火是一种具有巨大危害性的自然灾害，不仅给人们的生命财产带来严重威胁，还对生态环境造成严重破坏。山火具有快速蔓延、强大的热辐射能力和高温燃烧等特点，能够瞬间破坏大片林地、农田和居民区，威胁人们的生命和财产安全，以及破坏生态环境。因此需要对经常发生山火的区域进行监测，争取在发生山火的第一时间进行灭火处理，降低山火的影响范围。

2、随着深度学习算法的发展，利用卷积神经网络（cnn）和其他深度学习模型辅助摄像机拍摄的图像进行山火检测成为可能。深度学习模型可以通过大规模图像数据集进行训练，并具备良好的特征提取和表示能力，从而提高山火目标的识别准确性和鲁棒性。但是山火的形状多样化且不规则，可能表现为火线、火点、火球、热点等形态，在不同的时间段内形态也会发生变化，这增加了山火目标的识别难度，使得在图像中准确地检测山火变得更具挑战性。并且，山火的发生点往往位于较为偏远的地区或复杂的地形地貌中，这使得采集大规模、多样化的山火图像数据集变得困难。

技术实现思路

1、本专利技术所要解决的技术问题是：提供一种基于多模态表征的图像训练数据集生成方法及终端，提高用于训练深度学习模型的数据集的多样性，避免由于训练样本匮乏而造成的模型过拟合问题。

2、为了解决上述技术问题，本专利技术采用的技术方案为：

3、基于多模态表征的图像训练数据集生成方法，包括：

4、获取目标文本信息和区域图像；

5、通过预设的语义图像模型根据所述目标文本信息生成目标图像；

6、对所述目标图像进行裁剪得到待检测目标；

7、通过预设的语义分割模型在所述区域图像中确定候选位置；

8、将所述待检测目标贴附至所述候选位置，并对所述待检测目标进行标注，得到目标数据集样本。

9、为了解决上述技术问题，本专利技术采用的另一种技术方案为：

10、基于多模态表征的图像训练数据集生成终端，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于多模态表征的图像训练数据集生成方法中的各个步骤。

11、本专利技术的有益效果在于：获取目标文本信息和区域图像，基于语义图像模型的多模态特性根据目标文本信息生成多种形态的目标图像，从而通过语义图像模型拓展目标图像的多样性，避免训练数据集样本特征单一的问题。对目标图像进行裁剪得到待检测目标，避免引入目标图像中的其他干扰因素。同时基于语义分割模型在区域图像中筛选出待检测目标在实际场景中可能出现的候选位置，从而将待检测目标贴附到候选位置，避免将待检测目标贴附到不可能检测到的目标区域中，影响后续模型的特征提取与识别，提高待检测目标与实际场景的融合性，增强训练数据集样本的真实性。由此，同一个待检测目标贴附在多个不同的候选位置中，即可生成多个不同目标数据集样本，不仅不需要人工生成额外的待检测目标图像，还解决了待检测目标图像难以搜集的问题，提高了用于训练深度学习模型的数据集的多样性，避免由于训练样本匮乏而造成的模型过拟合问题。

本文档来自技高网...

【技术保护点】

1.基于多模态表征的图像训练数据集生成方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述通过预设的语义图像模型根据所述目标文本信息生成目标图像包括：

3.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述对所述目标图像进行裁剪得到待检测目标包括：

4.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述通过预设的语义分割模型在所述区域图像中确定候选位置包括：

5.根据权利要求3所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述将所述待检测目标贴附至所述候选位置，并对所述待检测目标进行标注，得到目标数据集样本包括：

6.根据权利要求2所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述将所述待检测目标进行缩放处理，得到标准尺寸的待检测目标包括：

7.根据权利要求6所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述幂律分布函数具体为：

8.根据权利要求5所述的基于

9.根据权利要求2所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述去噪网络包括多头自注意力机制模块、通道注意力模块、上采样模块以及下采样模块。

10.基于多模态表征的图像训练数据集生成终端，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-9任意一项所述的基于多模态表征的图像训练数据集生成方法中的各个步骤。

...

【技术特征摘要】

1.基于多模态表征的图像训练数据集生成方法，其特征在于，包括：

3.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述对所述目标图像进行裁剪得到待检测目标包括：

4.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述通过预设的语义分割模型在所述区域图像中确定候选位置包括：

6.根据权利要求2所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述将所述待...

【专利技术属性】
技术研发人员：张宇，吴庆耀，杨伟强，邓景良，刘东剑，
申请(专利权)人：深圳金三立视频科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人