一种面向智能视频会议的用户行为识别方法及系统技术方案

技术编号：38612393 阅读：9 留言：0更新日期：2023-08-26 23:40

本发明专利技术公开一种面向智能视频会议的用户行为识别方法及系统，涉及人工智能技术领域，该方法包括构建时空双支骨干网络；构建时空双支网络；时空双支网络包括：目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层；对时空双支网络进行训练；获取待识别的会议视频，并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。本发明专利技术能够提高参会人员行为识别的准确性和高效性。会人员行为识别的准确性和高效性。会人员行为识别的准确性和高效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向智能视频会议的用户行为识别方法及系统

[0001]本专利技术涉及人工智能
，特别是涉及一种面向智能视频会议的用户行为识别方法及系统。

技术介绍

[0002]近年来，随着企业管理工作的深化与发展，企业各部门之间的交流沟通和分工协作日益频繁，视频会议成为多数企业实现跨部门、跨区域沟通的首要选择。在视频会议中实现准确实时参会人员行为的识别，有助于分析和监测员工的工作状态，维护会议秩序，从而有效提升远程沟通与协作的效率和企业的管理水平，为工作决策提供强有力的数据支持。因此，基于会议视频实现用户行为的自动化识别具有重要的研究价值。
[0003]然而，会议视频数据中包含多个动目标，具有更加复杂的时序和空间信息，且存在过多的冗余内容和噪声干扰，是计算机视觉领域所面临的一项极大的挑战。
[0004]因此，亟需针对会议视频数据的复杂特性，提出一种具有较强特征提取能力的神经网络结构，从而提高参会人员行为识别的准确性和高效性。

技术实现思路

[0005]本专利技术的目的是提供一种面向智能视频会议的用户行为识别方法及系统，以提高参会人员行为识别的准确性和高效性。
[0006]为实现上述目的，本专利技术提供了如下方案：
[0007]一种面向智能视频会议的用户行为识别方法，包括：
[0008]构建时空双支骨干网络；所述时空双支骨干网络用于提取时序特征和空间特征；
[0009]构建时空双支网络；所述时空双支网络包括：目标检测网络YOLOv7、面部分支、动作分支、全程时序...

【技术保护点】

【技术特征摘要】
1.一种面向智能视频会议的用户行为识别方法，其特征在于，包括：构建时空双支骨干网络；所述时空双支骨干网络用于提取时序特征和空间特征；构建时空双支网络；所述时空双支网络包括：目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层；所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入，以参会人员的面部候选区为输出；所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建；所述面部分支以参会人员的面部候选区为输入，以面部特征为输出；所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入，以动作特征为输出；所述全程时序分支以会议视频数据为输入，以时序特征为输出；所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作，得到复合特征信息，并将复合特征信息输入至依次连接的两个全连接层中，得到参会人员的当前动作类别；对时空双支网络进行训练；获取待识别的会议视频，并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。2.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法，其特征在于，所述时空双支骨干网络包括：三维卷积块、三分支特征提取结构以及逐像素加和模块；所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取；所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征；所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。3.根据权利要求2所述的一种面向智能视频会议的用户行为识别方法，其特征在于，所述三维卷积块包括：卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为的三维池化层。4.根据权利要求2所述的一种面向智能视频会议的用户行为识别方法，其特征在于，所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。5.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法，其特征在于，所述对时空双支网络进行训练，具体包括：录入参会人员信息，并构建参会人员数据集；参会人...

【专利技术属性】
技术研发人员：刘晨，孟夏冰，
申请(专利权)人：北京电信易通信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人