一种狗行为动作识别技术的方法、装置、系统及存储介质制造方法及图纸

技术编号:36537348 阅读:17 留言:0更新日期:2023-02-01 16:25
本发明专利技术公开了狗行为动作识别技术的方法、装置、系统及存储介质,通过获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片,对目标图片进行特征提取得到特征数据构建网络模型并训练网络模型,优化训练得到数据集,将数据集输入预先训练好的深度神经网络得到预训练模型,对视频帧图像预处理后输入预训练模型得到检测图像,获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类,有效提高了狗行为识别的准确率和检测精度。检测精度。检测精度。

【技术实现步骤摘要】
一种狗行为动作识别技术的方法、装置、系统及存储介质


[0001]本专利技术属于动物行为识别
,尤其涉及一种狗行为动作识别技术的方法、装置、系统及存储介质。

技术介绍

[0002]近年来,随着宠物狗数量增多,流浪狗的数量也迅速增长,若不对其进行合适的管理,会带来扰乱秩序、影响卫生甚至携带一些病毒等问题,对市民的正常生活秩序带来不必要的麻烦。宠物狗越来越受到人们的欢迎,宠物市场的数据化也是未来发展的趋势,将宠物狗识别技术引入市场管理中可以通过市区监控区分城市中出现的烈性犬和宠物狗,及时通知有关部门对烈性犬进行处理,也可以通过市区监控识别宠物狗是否有牵绳,对不牵狗绳的宠物狗进行相关处理。狗行为动作识别技术采用传统的目标检测算法进行特征提取需要任务提取特征信息,传统算法将输入图片分为不同大小网格,再判断网格中是否包含物体并对目标分类,由于该算法太过于繁琐,检测速度不高,导致实际可行性较差,特征提取和分类训练是分离开的,若人工提取的特征出现缺失,则丢失的这些特征信息就很难恢复,给检测结果带来不良影响。

技术实现思路

[0003]有鉴于此,本专利技术提供了一种加深网络模型的主干提取特征网络的深度、引入注意力机制和多尺度融合来提取不同特征、提升狗的检测与识别精确度和检测效率的狗行为动作识别技术的方法、装置、系统及存储介质,具体采用以下技术方案来识别。
[0004]第一方面,本专利技术提供了一种狗行为动作识别技术的方法,包括以下步骤:获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为,根据的大小进行排序,将最小的卷积核及其对应的特征图剪掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
[0005]作为上述技术方案的进一步改进,根据的大小进行排序,将最小的卷积核及其对应的特征图剪掉,包括:采用YOLOv3网络模型输出不同尺度的特征图,输出的预测框包括边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的边界框得到预测结果;网络模型的每个网格预测边界框的四个坐标分别为、、和,预设特征图的左上角为坐标原点,单元格坐标为,先验框宽度和高度为和,则预测框的计算表达式为,其中表示检测框中心坐标,表示将和归一化到,和表示检测框的宽和高。
[0006]作为上述技术方案的进一步改进,通过非极大值抑制去掉多余的边界框得到预测结果,包括:通过特征提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置信度;模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目标而生成的预测框的置信度为1,预设一个的特征图,根据与该特征图对应的先验框的宽、高生成预测框的置信度表达式为,特征图中位置与宽、高的先验框对应的个特征值为式中的、、、和,、表示预测框的宽高,表示预测框的置信度,预测框属于某个类别的概率为
;非极大值用于将最高分的检测框加入检测结果的集合中,每个目标物体附近存在多个置信度高的检测框,通过计算每次加入集合的检测框和剩余最高分检测框的IOU值,若IOU值大于设定的阈值,则丢掉该低分框,保存高分的检测框,IOU值的计算表达式为,其中表示两个检测框与之间交集部分面积,表示两个检测框与之间并集部分面积。
[0007]作为上述技术方案的进一步改进,采用分类器进行行为数据特征的分类,包括:将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务建模中一个输入特征表示为,其中分别表示批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的不同信息与当前信息融合到一起,以弥补时间信息缺失的功能;时移模块操作包括位移和权值叠加,预设在输入为一维向量X时,经过卷积核大小为的卷积层,其输出的表达式为,其中是卷积的权重,位移操作的表达式为,权值叠加操作的表达式为;加入注意力模型将输入特征图进行批量归一化,并将输入特征图和权重因子相乘经过sigmoid激活函数与输入特征作融合得到狗具体行为特征,预设输入特征图为G,注意力图为M,其输出表达式为,其中表示矩阵乘法,注意力图计算表达式为,其中表示mini

batch的均值,表示
mini

batch的方差,表示数值小的常数用于数值稳定,和表示待学习参数,BN为批量归一化。
[0008]作为上述技术方案的进一步改进,深度神经网络的损失函数对模型进行检测,损失函数包括三个部分,第一部分是真实坐标和预测坐标的损失值ALOSS,表达式为,其中表示坐标预测的权重系数,表示检测框的多个尺度,C表示每个Anchor生成检测框的数量,表示预测框内包含物体时为1,否则为0,、、和表示预测框的中心坐标、宽和高;第二部分损失值是检测框内存在目标物体的置信度损失BLoss,其表达式为,其中表示不包括物体的置信度权重数值,表示预测框存在物体时为0,否则为1;第三部分是目标分类置信度CLoss,其表达式为,其中classes表示检测的类别数,和表示预测框包含物体类别g的真实概率和预测概率,B表示的二进制交叉熵的表达式为,整体的Loss是这三个部分相加,其表达式为s。
[0009]作为上述技术方案的进一步改进,分支网络提取特征图,特征集E是前馈网络的输出和分支网络的输入,网络部分由和的卷积层组成,阶段的网络部分则由和的卷积层组成,具体的网络结构表达式为,其中表示t阶段分支的运算量,表示t阶
段分支的运算量,表示t阶段分支的预测结果,表示t阶段分支2的预测结果,t表示该网络的阶段序列,同时损失函数为预测值和真实值之间距离平方和的均方误差;分支网络提取到置信图,置信图为置信度的二维矩阵,表示狗的关键点在各个位置出现的概率,在多目标的情况下,k目标的关键点j在置信图上会有一个峰值,任意点P在半径为R的区域内的置信度表达式为,其中表示k狗的j关键点的坐标位置,P表示以R为半径的范围中的一点,表示峰宽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于狗行为动作识别技术的方法,其特征在于,包括以下步骤:获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为,根据的大小进行排序,将最小的卷积核及其对应的特征图剪掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。2.根据权利要求1所述的基于狗行为动作识别技术的方法,其特征在于,根据的大小进行排序,将最小的卷积核及其对应的特征图剪掉,包括:采用YOLOv3网络模型输出不同尺度的特征图,输出的预测框包括边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的边界框得到预测结果;网络模型的每个网格预测边界框的四个坐标分别为、、和,预设特征图的左上角为坐标原点,单元格坐标为,先验框宽度和高度为和,则预测框的计算表达式为,其中表示检测框中心坐标,表示将和归一化到,和表示检测框的宽和高。3.根据权利要求2所述的基于狗行为动作识别技术的方法,其特征在于,通过非极大值抑制去掉多余的边界框得到预测结果,包括:
通过特征提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置信度;模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目标而生成的预测框的置信度为1,预设一个的特征图,根据与该特征图对应的先验框的宽、高生成预测框的置信度表达式为,特征图中位置与宽、高的先验框对应的个特征值为式中的、、、和,、表示预测框的宽高,表示预测框的置信度,预测框属于某个类别的概率为;非极大值用于将最高分的检测框加入检测结果的集合中,每个目标物体附近存在多个置信度高的检测框,通过计算每次加入集合的检测框和剩余最高分检测框的IOU值,若IOU值大于设定的阈值,则丢掉该低分框,保存高分的检测框,IOU值的计算表达式为,其中表示两个检测框与之间交集部分面积,表示两个检测框与之间并集部分面积。4.根据权利要求1所述的基于狗行为动作识别技术的方法,其特征在于,采用分类器进行行为数据特征的分类,包括:将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务建模中一个输入特征表示为,其中分别表示批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的不同信息与当前信息融合到一起,以弥补时间信息缺失的功能;时移模块操作包括位移和权值叠加,预设在输入为一维向量X时,经过卷积核大小为的卷积层,其输出的表达式为
,其中是卷积的权重,位移操作的表达式为,权值叠加操作的表达式为;加入注意力模型将输入特征图进行批量归一化,并将输入特征图和权重因子相乘经过sigmoid激活函数与输入特征作融合以得到狗具体行为特征,预设输入特征图为G,注意力图为M,其输出表达式为,其中表示矩阵乘法,注意力图计算表达式为,其中表示...

【专利技术属性】
技术研发人员:宋程刘保国胡金有吴浩梁开岩郭玮鹏李海巩京京
申请(专利权)人:星宠王国北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1