当前位置: 首页 > 专利查询>山东省淡水渔业研究院山东省淡水渔业监测中心专利>正文

一种基于机器视觉的鱼类行为检测方法技术

技术编号：41217717 阅读：4 留言：0更新日期：2024-05-09 23:38

本发明专利技术提出了一种基于机器视觉的鱼类行为检测方法，涉及计算机视觉领域。本发明专利技术提出了鱼类行为检测模型，包括鱼类行为视频采集，鱼类行为视频标注，构建局部优化模块，构建全局优化模块，构建多级融合模块，构建改进UniFormer模块，构建鱼类行为机器视觉检测模型，使用鱼类行为数据集训练鱼类行为机器视觉检测模型，使用鱼类行为机器视觉检测模型进行实时检测；本发明专利技术提出了改进UniFormer模块，首先局部优化模块通过在ViT块之前插入局部多头时间模块来有效减少本地时间冗余，然后全局优化模块可以捕获完整的时空依赖性，最后使用多级融合模块，将多阶段多级别的所有全局语义标记融合，形成最终视频表示。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，特别涉及一种基于机器视觉的鱼类行为检测方法。

技术介绍

1、视觉变换器vit在图像任务中表现优异，这促使各种研究将图像vit应用于视频任务，然而图像和视频之间的巨大差距阻碍了这些图像预训练模型的时空学习。在视频目标检测任务下，像uniformer这样的视频专用检测模型可以更无缝地转移到视频领域，但其独特的架构需要长时间的图像预训练，从而限制了可扩展性。随着强大的开源图像vit检测架构的出现，可以通过改进uniformer架构来释放其在视频理解方面的潜力。

2、鱼类行为检测是一项重要的研究领域，它涉及到从水上或水下拍摄的视频中识别和分析鱼类的行为。视频的质量直接影响着检测的准确性和可靠性。高分辨率、清晰度和稳定的视频有助于提供更准确的数据，从而更好地捕捉鱼类的各种行为。同时，视频检测算法的能力也至关重要，它们需要具备对不同种类鱼类行为的识别和分类能力，以及对复杂环境下的干扰和噪声进行过滤和处理的技能，因此，视频质量和检测算法的性能共同决定了鱼类行为检测的效果。

技术实现思路

1、本专利技术提供一种基于机器视觉的鱼类行为检测方法，旨在uniformer基础上进行改进，引入高效结构设计，使用局部优化、全局优化和多阶段融合，释放uniformer在视频理解方面的潜力，在鱼类行为视频检测中实现先进性能。

2、本专利技术旨在uniformer基础上进行改进，提供一种基于机器视觉的鱼类行为检测方法，包括以下步骤：

3、s1、鱼类行为视

4、s2、鱼类行为视频标注，将包含6种鱼类行为的所有鱼类行为视频进行标注，使用连续帧法对6种鱼类行为进行连续帧的标注，从而得到鱼类行为数据集；

5、s3、构建局部优化模块，包含局部多头时间模块、全局多头空间模块和ffn；

6、s4、构建全局优化模块，包含dpe、全局多头时空模块和ffn；

7、s5、构建多级融合模块，将输入的局部优化模块和全局优化模块进行融合；

8、s6、构建改进uniformer模块，包含3d卷积、下采样、局部优化模块、全局优化模块和多级融合模块；

9、s7、构建鱼类行为机器视觉检测模型，依次包括输入、改进uniformer模块、检测头和输出组成；

10、s8、使用鱼类行为数据集训练鱼类行为机器视觉检测模型，进行多次训练，每次训练增加训练轮数，使用准确率和召回率作为评价指标，选择准确率和召回率最高的模型作为鱼类行为机器视觉检测模型；

11、s9、使用鱼类行为机器视觉检测模型进行实时检测，使用拍摄设备对鱼类所在区域进行拍摄，将鱼类行为视频实时输入到鱼类行为机器视觉检测模型，得到实时检测结果。

12、优选地，在s1步骤中，当水下拍摄时，使用专业水下摄像设备，部分视频拍摄场地选择光线充足、水质清澈和透明度高的水域，部分视频拍摄场地选择水质浑浊但可看清鱼类轮廓和行动轨迹的水域，当水上拍摄时，使用专业摄像设备，部分视频拍摄场地选择光线充足、水质清澈和透明度高的水域，部分视频拍摄场地选择带有补光设备的、水质清澈和透明度高的夜间水域，部分视频拍摄场地选择水质浑浊但可看清鱼类轮廓和行动轨迹的水域。

13、优选地，在s1步骤中，对于觅食行为，包括寻找食物、捕食和进食活动；对于逃避行为，包括快速远离其他鱼类、突然转向和躲藏；对于社交行为，包括求偶、领地争夺、领地防卫和协作捕食；对于巡游行为，即有规律地巡游特定区域；对于休息行为，包括静止漂浮、躲藏在庇护物旁和停留在水底；对于繁殖行为，包括交配、产卵和育雏。

14、优选地，在s3步骤中，使用3d卷积将输入鱼类行为视频投影为16l个时空标记，，l为输入视频的时间、高度和宽度的乘积，c为视频通道，然后经过8倍时间下采样、2倍空间下采样和位置嵌入，，对于局部优化模块，输入，输出，，，，，，，代表逐元素相加，lmt代表局部多头时间模块，gms代表全局多头空间模块，ffn由两个由gelu分隔的线性投影组成，lmt中norm代表batch norm，gms和ffn中norm代表layer norm，gms和ffn来自图像预训练的vit块，对于lmt，lmt在时间维度t×1×1具有可学习的参数矩阵，，代表lmt可以学习时间维度中一个标记和其他标记之间的关系，对于gms，主要关注单帧视频中的1×h×w，，，，和是第n个头中的不同线性投影，exp代表指数函数，代表矩阵转置。

15、优选地，在s4步骤中，对于全局优化模块，输入，，，，，，，，代表逐元素相加，dpe来自uniformer，代表动态位置嵌入，ffn由两个由gelu分隔的线性投影组成，gmst代表全局多头时空模块，gmst和ffn中norm代表layer norm，gmst的计算方式为，其中线性投影，其中可以对q和所有时空标记x之间的依赖关系进行建模，从而将查询转换为视频表示，其计算方式为，其中代表使用线性投影将x转换为时空上下文，代表计算q和x之间的交叉亲和力矩阵，计算方式为，exp代表指数函数，t代表矩阵转置，代表线性层实现的线性投影，代表线性层实现的线性投影。

16、优选地，在s5步骤中，对于多级融合模块，首先将第i个全局优化模块表示为，对于来自局部优化模块的，全局优化模块可以将查询q转换为视频标记，对于所有全局优化模块的视频标记，依次使用前一个全局优化模块，作为当前全局优化模块的，则，最终得到全局视频标记f，对于n个全局优化模块，，然后从最终的局部优化模块提取类标记，将类标记与全局视频标记通过加权和的形式相加，获得并输出最终视频表示，，代表逐元素相加，是经过sigmoid函数处理的可学习参数。

17、优选地，在s6步骤中，对于改进uniformer模块，输入鱼类行为视频，应用3d卷积将输入鱼类行为视频投影为多个时空标记，然后执行8倍空间下采样，执行2倍时间下采样，进行位置嵌入，构建局部优化模块和全局优化模块，局部优化模块依次由局部多头时间模块、全局多头空间模块和ffn组成，全局优化模块依次由dpe、全局多头时空模块和ffn组成，使用并依次连接多个局部优化模块，在每个局部优化模块之上引入全局优化模块，构建多级融合模块，从最后一个局部优化模块中提取类标记，从所有全局优化模块获得全局视频标记，将类标记与全局视频标记通过加权和的形式相加，获得并输出最终鱼类行为视频表示。

18、与现有技术相比，本专利技术具有以下技术效果：

19、本专利技术提供的技术方案提出了改进uniformer模块，用来优化uniformer在视频目标检测任务中的性能，应用在鱼类行为检测场景，包含局部优化模块、全局优化模块和多级融合模块，局部优化模块利用vit的空间表示，通过在vit块之前插入局部多头时间模块来有效减少本地时间冗余，同时在局部优化模块之上引入全局优化模块，捕获完整的时空依赖性，最后使本文档来自技高网...

【技术保护点】

1.一种基于机器视觉的鱼类行为检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在S1步骤中，当水下拍摄时，使用专业水下摄像设备，部分视频拍摄场地选择光线充足、水质清澈和透明度高的水域，部分视频拍摄场地选择水质浑浊但可看清鱼类轮廓和行动轨迹的水域，当水上拍摄时，使用专业摄像设备，部分视频拍摄场地选择光线充足、水质清澈和透明度高的水域，部分视频拍摄场地选择带有补光设备的、水质清澈和透明度高的夜间水域，部分视频拍摄场地选择水质浑浊但可看清鱼类轮廓和行动轨迹的水域。

3.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在S1步骤中，对于觅食行为，包括寻找食物、捕食和进食活动；对于逃避行为，包括快速远离其他鱼类、突然转向和躲藏；对于社交行为，包括求偶、领地争夺、领地防卫和协作捕食；对于巡游行为，即有规律地巡游特定区域；对于休息行为，包括静止漂浮、躲藏在庇护物旁和停留在水底；对于繁殖行为，包括交配、产卵和育雏。

4.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特

5.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在S4步骤中，对于全局优化模块，输入，，，，，，，，代表逐元素相加，DPE来自UniFormer，代表动态位置嵌入，FFN由两个由GeLU分隔的线性投影组成，GMST代表全局多头时空模块，GMST和FFN中Norm代表Layer Norm，GMST的计算方式为，其中线性投影，其中可以对q和所有时空标记X之间的依赖关系进行建模，从而将查询转换为视频表示，其计算方式为，其中代表使用线性投影将X转换为时空上下文，代表计算q和X之间的交叉亲和力矩阵，计算方式为，exp代表指数函数，T代表矩阵转置，代表线性层实现的线性投影，代表线性层实现的线性投影。

6.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在S5步骤中，对于多级融合模块，首先将第i个全局优化模块表示为，对于来自局部优化模块的，全局优化模块可以将查询q转换为视频标记，对于所有全局优化模块的视频标记，依次使用前一个全局优化模块，作为当前全局优化模块的，则，最终得到全局视频标记F，对于N个全局优化模块，，然后从最终的局部优化模块提取类标记，将类标记与全局视频标记通过加权和的形式相加，获得并输出最终视频表示,，代表逐元素相加，是经过Sigmoid 函数处理的可学习参数。

7.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在S6步骤中，对于改进UniFormer模块，输入鱼类行为视频，应用3D卷积将输入鱼类行为视频投影为多个时空标记，然后执行8倍空间下采样，执行2倍时间下采样，进行位置嵌入，构建局部优化模块和全局优化模块，局部优化模块依次由局部多头时间模块、全局多头空间模块和FFN组成，全局优化模块依次由DPE、全局多头时空模块和FFN组成，使用并依次连接多个局部优化模块，在每个局部优化模块之上引入全局优化模块，构建多级融合模块，从最后一个局部优化模块中提取类标记，从所有全局优化模块获得全局视频标记，将类标记与全局视频标记通过加权和的形式相加，获得并输出最终鱼类行为视频表示。

...

【技术特征摘要】

1.一种基于机器视觉的鱼类行为检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在s1步骤中，当水下拍摄时，使用专业水下摄像设备，部分视频拍摄场地选择光线充足、水质清澈和透明度高的水域，部分视频拍摄场地选择水质浑浊但可看清鱼类轮廓和行动轨迹的水域，当水上拍摄时，使用专业摄像设备，部分视频拍摄场地选择光线充足、水质清澈和透明度高的水域，部分视频拍摄场地选择带有补光设备的、水质清澈和透明度高的夜间水域，部分视频拍摄场地选择水质浑浊但可看清鱼类轮廓和行动轨迹的水域。

3.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在s1步骤中，对于觅食行为，包括寻找食物、捕食和进食活动；对于逃避行为，包括快速远离其他鱼类、突然转向和躲藏；对于社交行为，包括求偶、领地争夺、领地防卫和协作捕食；对于巡游行为，即有规律地巡游特定区域；对于休息行为，包括静止漂浮、躲藏在庇护物旁和停留在水底；对于繁殖行为，包括交配、产卵和育雏。

4.根据权利要求1所述的一种基于机器视觉的鱼类行为检测方法，其特征在于，在s3步骤中，使用3d卷积将输入鱼类行为视频投影为16l个时空标记，，l为输入视频的时间、高度和宽度的乘积，c为视频通道，然后经过8倍时间下采样、2倍空间下采样和位置嵌入，，对于局部优化模块，输入，输出，，，，，，，代表逐元素相加，lmt代表局部多头时间模块，gms代表全局多头空间模块，ffn由两个由gelu分隔的线性投影组成，lmt中norm代表batch norm，gms和ffn中norm代表layer norm，gms和ffn来自图像预训练的vit块，对于lmt，lmt在时间维度t×1×1具有可学习的参数矩阵，，代表lmt可以学习时间维度中一个标记和其他标记之间的关系，对于gms，主要关注单帧视频中的1×h×w，，，，和是第n个头中的不同线性投影，exp代表指数函数，t代表矩阵转置。

5.根据权利要求1所述的一种基于机器...

【专利技术属性】
技术研发人员：董俊，闫家仁，刘晓晨，曹振杰，
申请(专利权)人：山东省淡水渔业研究院山东省淡水渔业监测中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人