一种基于级联神经网络的打电话识别方法技术

技术编号:37848203 阅读:19 留言:0更新日期:2023-06-14 22:34
本发明专利技术提供一种基于级联神经网络的打电话识别方法,包括:步骤1:获取待识别图像;步骤2:基于轻量化yolov5s,检测所述待识别图像中的人体;步骤3:基于轻量化alphapose,检测所述人体上的多个骨骼点;步骤4:基于所述多个骨骼点,从所述待识别图像上裁剪出潜在的打电话人员的上肢区域;步骤5:基于轻量化nasnet,对所述上肢区域进行识别分类;步骤6:基于头肩跟踪算法,对识别分类为打电话的所述上肢区域进行二次确认。本发明专利技术的基于级联神经网络的打电话识别方法,有效降低误报率,有效减少人体遮挡的影响。的影响。的影响。

【技术实现步骤摘要】
一种基于级联神经网络的打电话识别方法


[0001]本专利技术涉及人工智能
,特别涉及一种基于级联神经网络的打电话识别方法。

技术介绍

[0002]目前,打电话识别在现实生活中有重要的作用,例如:在加油站或其他特定场景是不允许打电话的。现有关于打电话识别的技术有很多,但是基本上都局限于理论层面,只在特定的实验场景下才有效,很难应用在实际场景中。在实际应用中现有的打电话识别算法存在以下几个缺点:(1)只依赖手机和头部区域的交互进行判断,误报率高;(2)只能应用在特定或背景较单一的场景,鲁棒性差;(3)过度依赖电话这一目标,检测误差积累,导致大量漏报误报;(4)缺乏有效的工程化手段。

技术实现思路

[0003]本专利技术目的之一在于提供了一种基于级联神经网络的打电话识别方法,以解决上述问题。
[0004]本专利技术实施例提供的一种基于级联神经网络的打电话识别方法,包括:
[0005]步骤1:获取待识别图像;
[0006]步骤2:基于轻量化yolov5s,检测待识别图像中的人体;
[0007]步骤3:基于轻量化alphapose,检测人体上的多个骨骼点;
[0008]步骤4:基于多个骨骼点,从待识别图像上裁剪出潜在的打电话人员的上肢区域;
[0009]步骤5:基于轻量化nasnet,对上肢区域进行识别分类;
[0010]步骤6:基于头肩跟踪算法,对识别分类为打电话的上肢区域进行二次确认。
[0011]优选的,轻量化yolov5s的构建步骤包括:
[0012]将原始yolov5s的三个尺度的特征图P3、P4和P5对应的9个anchor修改为6个anchor,低尺度的特征图P3修改为1个anchor,中尺度的特征图P4不修改,高尺度的特征图P5修改为2个anchor;
[0013]获取人体数据集;
[0014]基于人体数据集,使用k

means聚类算法计算6个anchor的尺度并进行相应赋值;
[0015]将原始yolov5s的Backbone的6x6卷积换为一个3x3卷积和最大池化层;
[0016]去除原始yolov5s的SPP层,将PAN的concat操作修改为add;
[0017]将原始yolov5s的Head部分的普通卷积替换为深度可分离卷积。
[0018]优选的,轻量化alphapose的构建步骤包括:
[0019]将原始alphapose中的backbone部分所有网络层通道降低一倍;
[0020]将原始alphapose中的3个尺度的特征图P3、P4和P5中的P3下采样到P4的尺度,同时,将P5上采样到P4的尺度;
[0021]上、下采样完成后,采用add的融合方式融合P3、P4和P5;
[0022]去除原始alphapose中的一个DUC层,将剩余其他DUC层输入输出通道降低一倍;
[0023]将原始alphapose中预测的关键点数量由17降为7,只用于预测头部鼻子和人体上肢关键点;
[0024]将原始alphapose中最后卷积层输出通道数由17降为7。
[0025]优选的,步骤4:基于多个骨骼点,从待识别图像上裁剪出潜在的打电话人员的上肢区域,包括:
[0026]基于预设的关键点筛选逻辑,从骨骼点中筛选出关键点;
[0027]基于预设的关键点裁剪逻辑,根据关键点,从待识别图像上裁剪出目标图像;
[0028]基于预设的尺度过滤逻辑,对目标图像进行尺度过滤,获得潜在的打电话人员的上肢区域。
[0029]优选的,轻量化nasnet的构建步骤包括:
[0030]将原始nasnet的backbone替换为轻量级网络mobilenet

v3。
[0031]优选的,基于头肩跟踪算法,对识别分类为打电话的上肢区域进行二次确认,包括:
[0032]基于头肩跟踪算法,对识别分类为打电话的上肢区域在预设的时间段内是否为同一人员;
[0033]若是,二次确认成功。
[0034]优选的,步骤1:获取待识别图像,包括:
[0035]获取进入目标场景内的人员的第一视频图像;
[0036]基于第一视频图像,从人员中确定待跟踪人员;
[0037]跟踪获取待跟踪人员在目标场景内的第二视频图像,并作为待识别图像。
[0038]优选的,获取进入目标场景内的人员的第一视频图像,包括:
[0039]通过设置于目标场景的入口旁的至少一个第一图像采集设备获取进入目标场景内的人员的第一视频图像;
[0040]和/或,
[0041]通过位于目标场景的入口旁的至少一个工作人员佩戴的记录仪获取进入目标场景内的人员的第一视频图像。
[0042]优选的,基于第一视频图像,从人员中确定待跟踪人员,包括:
[0043]对第一视频图像进行人像提取,获得人员的人员人像;
[0044]基于预设的第一特征提取模板,对人员人像进行特征提取,获得多个人像特征值;
[0045]基于多个人像特征值,构建人员的人员人像的第一人像描述向量;
[0046]获取预设的待跟踪人像描述向量库,待跟踪人像描述向量库包括:多组一一对应的第二人像描述向量和第一向量相似度阈值;
[0047]计算第一人像描述向量和第二人像描述向量之间的第一向量相似度;
[0048]若存在第一向量相似度大于等于用于计算第一向量相似度的第二人像描述向量对应的第一向量相似度阈值,将对应人员作为待跟踪人员;
[0049]将人员中除了待跟踪人员之外的人员作为待确认人员;
[0050]基于第一视频图像,确定待确认人员与待跟踪人员两两之间的交互关系;
[0051]基于预设的第二特征提取模板,对交互关系进行特征提取,获得多个关系特征值;
[0052]基于多个关系特征值,构建待确认人员与待跟踪人员两两之间的交互关系的第一关系描述向量;
[0053]获取预设的跟踪确认关系描述向量库,跟踪确认关系描述向量库包括:多组一一对应的第二关系描述向量和第二向量相似度阈值;
[0054]计算第一关系描述向量与第二关系描述向量之间的第二向量相似度;
[0055]若存在第二向量相似度大于等于用于计算第二向量相似度的第二关系描述向量对应的第二向量相似度阈值,将对应待确认人员作为待跟踪人员。
[0056]优选的,跟踪获取待跟踪人员在目标场景内的第二视频图像,包括:
[0057]获取待跟踪人员的人员位置、移动方向和移动速度;
[0058]获取设置于目标场景内的多个预设位置的第二图像采集设备的第一采集范围;
[0059]将包含人员位置的第一采集范围作为第二采集范围;
[0060]基于待跟踪人员的人员位置、移动方向和移动速度,预测待跟踪人员离开第二采集范围的离开时间;
[0061]通过最长离开时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于级联神经网络的打电话识别方法,其特征在于,包括:步骤1:获取待识别图像;步骤2:基于轻量化yolov5s,检测所述待识别图像中的人体;步骤3:基于轻量化alphapose,检测所述人体上的多个骨骼点;步骤4:基于所述多个骨骼点,从所述待识别图像上裁剪出潜在的打电话人员的上肢区域;步骤5:基于轻量化nasnet,对所述上肢区域进行识别分类;步骤6:基于头肩跟踪算法,对识别分类为打电话的所述上肢区域进行二次确认。2.如权利要求1所述的一种基于级联神经网络的打电话识别方法,其特征在于,所述轻量化yolov5s的构建步骤包括:将原始yolov5s的三个尺度的特征图P3、P4和P5对应的9个anchor修改为6个anchor,低尺度的特征图P3修改为1个anchor,中尺度的特征图P4不修改,高尺度的特征图P5修改为2个anchor;获取人体数据集;基于人体数据集,使用k

means聚类算法计算所述6个anchor的尺度并进行相应赋值;将原始yolov5s的Backbone的6x6卷积换为一个3x3卷积和最大池化层;去除原始yolov5s的SPP层,将PAN的concat操作修改为add;将原始yolov5s的Head部分的普通卷积替换为深度可分离卷积。3.如权利要求1所述的一种基于级联神经网络的打电话识别方法,其特征在于,所述轻量化alphapose的构建步骤包括:将原始alphapose中的backbone部分所有网络层通道降低一倍;将原始alphapose中的3个尺度的特征图P3、P4和P5中的P3下采样到P4的尺度,同时,将P5上采样到P4的尺度;上、下采样完成后,采用add的融合方式融合P3、P4和P5;去除原始alphapose中的一个DUC层,将剩余其他DUC层输入输出通道降低一倍;将原始alphapose中预测的关键点数量由17降为7,只用于预测头部鼻子和人体上肢关键点;将原始alphapose中最后卷积层输出通道数由17降为7。4.如权利要求1所述的一种基于级联神经网络的打电话识别方法,其特征在于,所述步骤4:基于所述多个骨骼点,从所述待识别图像上裁剪出潜在的打电话人员的上肢区域,包括:基于预设的关键点筛选逻辑,从所述骨骼点中筛选出关键点;基于预设的关键点裁剪逻辑,根据所述关键点,从所述待识别图像上裁剪出目标图像;基于预设的尺度过滤逻辑,对所述目标图像进行尺度过滤,获得潜在的打电话人员的上肢区域。5.如权利要求1所述的一种基于级联神经网络的打电话识别方法,其特征在于,所述轻量化nasnet的构建步骤包括:将原始nasnet的backbone替换为轻量级网络mobi lenet

v3。6.如权利要求1所述的一种基于级联神经网络的打电话识别方法,其特征在于,基于头
肩跟踪算法,对识别分类为打电话的所述上肢区域进行二次确认,包括:基于头肩跟踪算法,对识别分类为打电话的所述上肢区域在预设的时间段内是否为同一人员;若是,二次确认成功。7.如权利要求1所述的一种基于级联神经网络的打电话识别方法,其特征在于,所述步骤1:获取待识别图像,包括:获取进入目标场景内的人员的第一视频图像;基于所述第一视频图像,从所述人员中确定待跟踪人员;跟踪获取所述待跟踪人员在所述目标场景内的第二视频图像,并作为待识别图像。8.如权利要求7所述的一种基于级联神经网络的打电话识别方法,其特...

【专利技术属性】
技术研发人员:李威曾国卿朱新潮刘佳宁胡振宏刘亚健
申请(专利权)人:上海可深信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1