一种基于深度残差网络的宠物图像情绪识别方法技术

技术编号:27744068 阅读:19 留言:0更新日期:2021-03-19 13:38
本发明专利技术提供了一种基于深度残差网络的宠物图像情绪识别方法,该方法包括:获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;通过训练后的模型对宠物进行目标检测和情绪推断。本发明专利技术能提高宠物情绪识别的确定性,提高识别的推断速度和精度。

【技术实现步骤摘要】
一种基于深度残差网络的宠物图像情绪识别方法
本专利技术涉及情绪识别
,尤其涉及一种基于深度残差网络的宠物图像情绪识别方法。
技术介绍
当前家庭宠物越来越多,人与宠物之间的交流也越来越多,然而人们常对宠物表达的情绪无法进行有效识别,造成交流障碍,引起宠物的不受控制,出现宠物咬伤路人的情况。而经验丰富的宠物主人可以通过宠物声音的音调、音量、频次等,准确地判断宠物的情绪,从而给出有效的安抚方式,而这种能力不是每个宠物主人都拥有的。现有基于音频数据的识别方法,主要通过倒谱系数共振峰和过零率作为特征参数,建立例如高斯混合模型等统计模型,或使用无监督聚类方法对宠物情绪进行分类。但该方法在使用过程中存在以下缺点:1、音频信号采集困难,干扰较大,不容易采集到信噪比较好的信号用于识别;2、对同时有多个宠物在场的情况无法支持;3、需要在时域上累积一段时间的数据才可以用于情绪识别,限制了现实中的使用;4、某些情况下宠物可能没有发出足够的声音用于识别。因而如何准确掌握宠物的情绪,以便更好的安抚和互动成为宠物主人想要解决的问题。
技术实现思路
本专利技术提供一种基于深度残差网络的宠物图像情绪识别方法,解决现基于音频数据的宠物情绪识别存在识别不准确的问题,能提高宠物情绪识别的确定性,提高识别的推断速度和精度。为实现以上目的,本专利技术提供以下技术方案:一种基于深度残差网络的宠物图像情绪识别方法,包括:获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;通过训练后的模型对宠物进行目标检测和情绪推断。优选的,构建宠物情绪分类算法模型包括:构建二级网络,前级网络用于对图片内的宠物进行目标检测,获取检测的位置框,并根据所述位置框对单帧图片进行切图和增强处理;后级网络用于对裁剪出的图片进行情绪识别,以得到推断结果。优选的,所述前级网络为宠物目标检测网络,使用改进的yolov4网络结构,主力网络使用增加注意力机制的mobilenetv3进行特征提取,以进行宠物分类和区域切图。优选的,所述后级网络为深度残差网络,在ResNet网络中加入注意力模块,以单张已分类宠物图片作为输入进行快速识别宠物情绪。优选的,所述根据所述音频进行预处理及提取声音特征,包括:采用经验模态分解的方式去除短时非平稳信号的高频噪声,以克服傅里叶变换在有限时长和非平稳信号上不准确;采用HHT变换获得声音信号的边际谱,并获取边际谱能量;使用短时边际谱能量和短时平均过零率作为门限,检测语音端点,切分语音片段。优选的,所述根据所述音频进行预处理及提取声音特征,还包括:对切分好的语音片段进行削波处理,计算峰值所在的位置并在边际谱上读出基音频率;对语音片段的边际谱积分获得能量;对语音片段进行线性预测获得共振峰;对语音片段的0-2000Hz、2000Hz以上进行边际谱能量积分,并将二者的比值作为高低频段功率比。优选的,所述根据所述声音特征对所述音频进行统计分类和情绪标记,包括:建立情绪分类的支持向量机SVM,并通过所述支持向量机SVM对所述声音特征进行情绪分类;将所述声音特征分为高兴、愤怒、悲伤和其他,以进行情绪标记。优选的,所述根据时序和所述视频提取对应的单帧图片,包括:对所述视频进行视频抽帧以形成单帧图片,并根据情绪标记的宠物声音得到该时序对应的多角度的单帧图片;对多张单帧图片进行筛选并进行情绪标记,以形成带有情绪标记的单帧图片。优选的,所述根据所述位置框对单帧图片进行切图和增强处理,包括:确定宠物区域,并根据所述位置框进行宠物区域切图,使裁剪后的图片获得专注的情绪表征;根据所述位置框对宠物具有情绪表征的位置进行增强处理。优选的,所述将所述宠物图像情绪数据集作为训练数据进行模型训练,包括:对二级网络进行分阶段训练,首先训练宠物目标检测网络,观察输出图的注意力情况,防止网络对于宠物产生过拟合,训练时采取对目标分块随机遮挡和马赛克遮挡的训练策略,通过网络输出的注意力热图观察,防止前级网络在识别目标时注意力分布过于集中,以提升其鲁棒性;其次训练后级级网络,使用所述宠物图像情绪数据集,从视频中抽取带有情绪标记的单帧图片,分成训练集和验证集,使用旋转模糊透明叠加手段增广图片集之后,输入前级网络获得目标切图,再输入后级网络,使用情绪标签进行训练,最后使用验证集进行整个网络的准确性验证。本专利技术提供一种基于深度残差网络的宠物图像情绪识别方法,获取宠物视频和音频,根据音频数据进行分类和情绪标记,建立目标宠物的宠物图像情绪数据集,构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练,通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题,能提高宠物情绪识别的确定性,提高识别的推断速度和精度。附图说明为了更清楚地说明本专利技术的具体实施例,下面将对实施例中所需要使用的附图作简单地介绍。图1是本专利技术提供的一种基于深度残差网络的宠物图像情绪识别方法的示意图。图2是本专利技术实施例提供的宠物图像情绪识别方法的技术流程图。图3是本专利技术实施例提供的二级网络的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例的方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。针对当前对宠物的情绪无法精确识别,宠物主人不能更好的安抚和互动的问题,本专利技术提供一种基于深度残差网络的宠物图像情绪识别方法,获取宠物视频和音频,根据音频数据进行分类和情绪标记,建立目标宠物的宠物图像情绪数据集,构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练,通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题,能提高宠物情绪识别的确定性,提高识别的推断速度和精度。如图1所示,一种基于深度残差网络的宠物图像情绪识别方法,包括:S1:获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;S2:根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;S3:构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;S4:通过训练后的模型对宠物进行目标检测和情绪推断。具体地,如图2所示,对于特定的宠物,在不同的情绪下,采集单只宠物声音信号,处理音频信号,获得声音特征,所述声音特征包括:倒谱系数、共振峰、过零率、本文档来自技高网
...

【技术保护点】
1.一种基于深度残差网络的宠物图像情绪识别方法,其特征在于,包括:/n获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;/n根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;/n构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;/n通过训练后的模型对宠物进行目标检测和情绪推断。/n

【技术特征摘要】
1.一种基于深度残差网络的宠物图像情绪识别方法,其特征在于,包括:
获取不同情绪下单只宠物的音频和视频,并根据所述音频进行预处理及提取声音特征;
根据所述声音特征对所述音频进行统计分类和情绪标记,并根据时序和所述视频提取对应的单帧图片,得到带有情绪标记的宠物图像情绪数据集;
构建宠物情绪分类算法模型,并将所述宠物图像情绪数据集作为训练数据进行模型训练;
通过训练后的模型对宠物进行目标检测和情绪推断。


2.根据权利要求1所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,构建宠物情绪分类算法模型包括:
构建二级网络,前级网络用于对图片内的宠物进行目标检测,获取检测的位置框,并根据所述位置框对单帧图片进行切图和增强处理;
后级网络用于对裁剪出的图片进行情绪识别,以得到推断结果。


3.根据权利要求2所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述前级网络为宠物目标检测网络,使用改进的yolov4网络结构,主力网络使用增加注意力机制的mobilenetv3进行特征提取,以进行宠物分类和区域切图。


4.根据权利要求3所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述后级网络为深度残差网络,在ResNet网络中加入注意力模块,以单张已分类宠物图片作为输入进行快速识别宠物情绪。


5.根据权利要求4所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述根据所述音频进行预处理及提取声音特征,包括:
采用经验模态分解的方式去除短时非平稳信号的高频噪声,以克服傅里叶变换在有限时长和非平稳信号上不准确;
采用HHT变换获得声音信号的边际谱,并获取边际谱能量;
使用短时边际谱能量和短时平均过零率作为门限,检测语音端点,切分语音片段。


6.根据权利要求5所述的基于深度残差网络的宠物图像情绪识别方法,其特征在于,所述根据所述音频进行预处理及提取声音特征,还包括:
对切分好的语音片段进行削波处理,计算峰值所在的位置并在边际谱...

【专利技术属性】
技术研发人员:郭祥谢衍涛宋娜王鼎陈继梅启鹏
申请(专利权)人:杭州格像科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1