一种面向智能视频会议的用户行为识别方法及系统技术方案

技术编号:38612393 阅读:9 留言:0更新日期:2023-08-26 23:40
本发明专利技术公开一种面向智能视频会议的用户行为识别方法及系统,涉及人工智能技术领域,该方法包括构建时空双支骨干网络;构建时空双支网络;时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;对时空双支网络进行训练;获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。本发明专利技术能够提高参会人员行为识别的准确性和高效性。会人员行为识别的准确性和高效性。会人员行为识别的准确性和高效性。

【技术实现步骤摘要】
一种面向智能视频会议的用户行为识别方法及系统


[0001]本专利技术涉及人工智能
,特别是涉及一种面向智能视频会议的用户行为识别方法及系统。

技术介绍

[0002]近年来,随着企业管理工作的深化与发展,企业各部门之间的交流沟通和分工协作日益频繁,视频会议成为多数企业实现跨部门、跨区域沟通的首要选择。在视频会议中实现准确实时参会人员行为的识别,有助于分析和监测员工的工作状态,维护会议秩序,从而有效提升远程沟通与协作的效率和企业的管理水平,为工作决策提供强有力的数据支持。因此,基于会议视频实现用户行为的自动化识别具有重要的研究价值。
[0003]然而,会议视频数据中包含多个动目标,具有更加复杂的时序和空间信息,且存在过多的冗余内容和噪声干扰,是计算机视觉领域所面临的一项极大的挑战。
[0004]因此,亟需针对会议视频数据的复杂特性,提出一种具有较强特征提取能力的神经网络结构,从而提高参会人员行为识别的准确性和高效性。

技术实现思路

[0005]本专利技术的目的是提供一种面向智能视频会议的用户行为识别方法及系统,以提高参会人员行为识别的准确性和高效性。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种面向智能视频会议的用户行为识别方法,包括:
[0008]构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
[0009]构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
[0010]对时空双支网络进行训练;
[0011]获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
[0012]可选地,所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;
[0013]所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;
[0014]所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;
[0015]所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。
[0016]可选地,所述三维卷积块包括:卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为的三维池化层。
[0017]可选地,所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。
[0018]可选地,所述对时空双支网络进行训练,具体包括:
[0019]录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
[0020]利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
[0021]构建动作检测数据集;
[0022]根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
[0023]一种面向智能视频会议的用户行为识别系统,包括:
[0024]时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
[0025]时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
[0026]时空双支网络训练单元,用于对时空双支网络进行训练;
[0027]用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
[0028]可选地,所述时空双支网络训练单元具体包括:
[0029]参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
[0030]YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
[0031]动作检测数据集构建子单元,用于构建动作检测数据集;
[0032]时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
[0033]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0034]本专利技术所提供的一种面向智能视频会议的用户行为识别方法及系统,利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别;相比二维神经网络仅能基于单一的空间信息进行静态动作识别,本专利技术所提供的时空双支网络包含了多尺度的时序和空间上下文信息,基于该时空双支网络进行参会人员动作识别,能够在精准识别各个参会人员的同时,实时识别参会人员的当前动作状态,从而实现视频会议系统中高效、实时、准确的用户行为识别。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本专利技术所提供的一种面向智能视频会议的用户行为识别方法流程示意图;
[0037]图2为时空双支网络的结构示意图;
[0038]图3为时空双支骨干网络的结构示意图。
具体实施方式
[0039]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向智能视频会议的用户行为识别方法,其特征在于,包括:构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;对时空双支网络进行训练;获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。2.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。3.根据权利要求2所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三维卷积块包括:卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为的三维池化层。4.根据权利要求2所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。5.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述对时空双支网络进行训练,具体包括:录入参会人员信息,并构建参会人员数据集;参会人...

【专利技术属性】
技术研发人员:刘晨孟夏冰
申请(专利权)人:北京电信易通信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1