一种基于三模态的动物行为估算方法和存储介质技术

技术编号：37467074 阅读：19 留言：0更新日期：2023-05-06 09:42

本发明专利技术涉及一种基于三模态的动物行为估算方法和存储介质，包括：采集目标动物视频，获取视频中每帧的目标图像和对应的文本数据；根据第一模型，提取目标图像的静态特征；根据第二模型，获取目标图像对应的文本数据的观察者视角特征；根据第三模型，提取目标图像中目标动物的步态特征；将观察者视角特征分别与对应的静态特征和步态特征的融合结果输入至全连接层处理，获得融合特征；对静态特征与对应的观察者视角特征和步态特征进行加权求和，确定区别特征；根据融合特征和区别特征，预测行为类别。静态特征和步态特征是动物本身特征，观察者视角特征是从人观察动物的角度得到的特征，两者相融合具有客观性，能够提高行为识别结果。结果。结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于三模态的动物行为估算方法和存储介质

[0001]本专利技术涉及计算机视觉领域。具体而言，涉及一种基于三模态的动物行为估算方法和存储介质。

技术介绍

[0002]为了人类更好地的生存和发展，动物行为变化规律越来越受到重视。现有技术中，大多基于单模态图像数据预测动物行为，但是，由于单一模态数据无法全面表征动物行为，因此基于单模态图像数据的动物行为识别精度有待提升。

技术实现思路

[0003]本专利技术正是基于现有技术的上述需求而提出的，本专利技术要解决的技术问题是如何提高动物行为识别精度。
[0004]为了解决上述问题，本专利技术是采用如下技术方案实现的：一种基于三模态的动物行为估算方法，包括：采集目标动物视频，获取视频中每帧的目标图像和对应的文本数据，所述文本数据指用于描述所述目标动物的文字内容；根据第一模型，提取所述目标图像的静态特征；根据第二模型，获取所述目标图像对应的文本数据的观察者视角特征；根据第三模型，提取所述目标图像中目标动物的步态特征；将所述观察者视角特征分别与对应的静态特征和步态...

【技术保护点】

【技术特征摘要】
1.一种基于三模态的动物行为估算方法，其特征在于，包括：采集目标动物视频，获取视频中每帧的目标图像和对应的文本数据，所述文本数据指用于描述所述目标动物的文字内容；根据第一模型，提取所述目标图像的静态特征；根据第二模型，获取所述目标图像对应的文本数据的观察者视角特征；根据第三模型，提取所述目标图像中目标动物的步态特征；将所述观察者视角特征分别与对应的静态特征和步态特征的融合结果输入至全连接层处理，获得融合特征；将所述静态特征与对应的观察者视角特征和步态特征分别进行全连接层处理，确定区别特征；根据所述融合特征和所述区别特征，预测行为类别。2.根据权利要求1所述的一种基于三模态的动物行为估算方法，其特征在于，在所述提取所述目标图像的静态特征前，包括：对所述目标图像进行灰度化，基于Sobel算子对灰度化后目标图像进行边缘处理；获取边缘处理后目标图像的最大外接矩形；根据所述最大外接矩形，从所述目标图像中获取前景目标图像，并拼接到各个环境背景中得到对应的增强图像。3.根据权利要求2所述的一种基于三模态的动物行为估算方法，其特征在于，所述第一模型为ResNet18模型，根据所述ResNet18模型，提取所述目标图像的静态特征，具体包括：构建第一训练样本库，所述第一训练样本库包括目标样本图像和对应的增强图像；根据所述第一训练样本库，对所述ResNet18模型进行训练，获得训练后的ResNet18模型；利用所述训练后的ResNet18模型对所述目标图像进行识别，获得静态特征。4.根据权利要求1所述的一种基于三模态的动物行为估算方法，其特征在于，所述第二模型为TextRCNN模型，根据所述TextRCNN模型，获取所述目标图像对应的文本数据的观察者视角特征，具体包括：构建第二训练样本库，所述第二训练样本库包括目标样本图像和对应的文本数据，以及所述文本数据对应的词向量数据；根据所述第二训练样本库，对所述TextRCNN模型进行训练，获得训练后的TextRCNN模型；利用所述训练后的TextRCNN模型对所述目标图像对应的文本数据处理获得观察者视角特征。5.根据权利要求1所述的一种基于三模态的动物行为估算方法，其特征在于，将LSTM和CNN网络组合构建第三模型，其中，所述LSTM网络用于提取动物运动约束...

【专利技术属性】
技术研发人员：吴琎，何振东，
申请(专利权)人：北京猫猫狗狗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人