用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质技术方案

技术编号:35808394 阅读:11 留言:0更新日期:2022-12-03 13:27
一种用于根据数字视频的帧序列对人体行为进行分类的方法、处理系统和处理器可读介质。2D卷积神经网络用于标识在每个帧内可见的人体上的关键点,例如人体关节。为每个视频帧创建所述关键点的编码表示。对应于所述帧序列的所述编码表示序列由3D CNN处理,所述3D CNN被训练为根据随时间变化的关键点位置标识人体行为。体行为。体行为。

【技术实现步骤摘要】
【国外来华专利技术】用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质
[0001]相关申请的交叉引用
[0002]本申请要求于2020年4月6日提交的、专利技术名称为“使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质(METHOD,SYSTEM,AND MEDIUM FOR IDENTIFYING HUMAN BEHAVIOR IN A DIGITIAL VIDEO USING CONVOLUTIONAL NEURAL NETWORKS)”的美国专利申请序列号16/841,227的优先权,其内容通过引用的方式并入本文中。


[0003]本专利技术涉及数字视频中的人体跟踪,具体涉及用于标识数字视频中人体行为的方法、系统和处理器可读介质。

技术介绍

[0004]识别人体行为是计算机视觉研究中的一个长期的问题。虽然机器学习在计算机视觉领域取得了进步,包括在数字图像或数字视频中标识人体以及在数字视频的多帧上跟踪人体的移动的一系列方法,但在数字视频中标识或识别特定类型的人体行为仍然存在困难。
[0005]在计算机视觉中,机器学习已被应用于人体行为标识问题,但成功率低。目前的机器学习方法在从数字视频中识别和标识人体行为方面表现出远低于人类水平的准确性。例如,Facebook开发的一种系统根据数字视频中显示的人体行为标识被禁止的视频内容形式,该系统在2019年年初上了新闻头条,原因是它未能在上传到平台的视频中检测到新西兰大规模枪手的暴力行为(参见https://www.nbcnews.com/tech/tech

news/facebook

says

its

artificial

intelligence

systems

failed

detect

new

zealand

n985731)。
[0006]文献中有各种机器学习方法,用于使用机器学习标识数字视频中的人体行为。这些机器学习方法中的一些方法使用卷积神经网络,这些卷积神经网络非常适合高效地处理二维和三维数字图像。这些机器学习方法中的一些方法使用递归神经网络,这些递归神经网络非常适合处理随着时间的推移而变化的数据,但通常是计算密集型的。图1A至图1D示出了几种这样的机器学习方法:
[0007]图1A示出了用于标识和分类数字视频中的人体行为的第一机器学习方法10。第一机器学习方法使用二维卷积神经网络(two

dimensional convolutional neural network,2D CNN)14来对数字视频的二维帧12序列执行空间处理并生成空间信息。与2D CNN 14并行,第一机器学习方法10使用光流模块16来处理数字视频的二维帧序列12,以从二维帧序列12导出光流数据。由光流模块16输出的光流数据16和由2D CNN 14输出的空间信息被组合,以建立在二维帧序列12中检测到的人的表观运动模式。将由光流模块16输出的光流数据和由2DCNN 14输出的空间信息组合,产生代表在二维帧序列12中检测到的人的表观运动模式的背景和人体信息18。背景和人体信息18被提供给人体行为分类器19,以标识与在二维帧12序列中检测到的人体行为相对应的一个类别(或分类)。
[0008]在图1B中,第二机器学习方法20还使用二维卷积神经网络(two

dimensional convolutional neural network,2D CNN)24来处理数字视频的二维帧序列12,以生成空间信息。与2D CNN24执行的处理并行,递归神经网络(recurrent neural network,RNN)26用于处理数字视频的二维帧序列12,以从数字视频中的二维帧序列12导出时间数据。由RNN 26输出的时间数据和由2D CNN 24输出的空间数据被组合,产生指示在二维帧序列中检测到的人体和在二维帧序列12中人体随时间的移动的人体时间和空间信息28。人体时间和空间信息28被提供给人体行为分类器29,人体行为分类器29根据人体时间和空间信息28标识在二维帧序列12中检测到的人体行为。
[0009]在图1C中,第三机器学习方法30还使用具有多个层的三维卷积神经网络(three

dimensional convolutional neural network,3D CNN)34来处理数字视频的二维帧时间序列12,神经网络的第三维度是时间。3D CNN 34生成背景信息和人体时间和空间信息38,指示在二维帧时间序列12中检测和跟踪的人体的背景和移动。背景信息和人体时间和空间信息38被提供给人体行为分类器39,以根据背景信息和人体时间和空间信息标识在二维帧12的时间序列中检测和跟踪的人体行为。
[0010]在图1D中,第四机器学习方法40使用二维卷积神经网络(two

dimensional convolutional neural network,2D CNN)44来处理二维帧序列12的单个二维帧,以标识帧序列12中所示的人体上的关键点。一旦2D CNN在每个帧中标识出关键点,每个帧的关键点就被提供给基于规则的逻辑块48,基于规则的逻辑块48用于根据从2D CNN 44接收的关键点标识人体的姿态。包括三维卷积神经网络(three

dimensional convolutional neural network,3D CNN)的人体行为分类器49从基于规则的逻辑块49接收检测到的姿态,并根据由基于规则的逻辑48检测到的姿态序列在帧序列12中标识人体行为。
[0011]公开相关方法的具体参考文献包括授予微软技术许可有限责任公司的US7330566B2,专利技术名称为“基于视频的步态识别(Video

based gait recognition)”,该参考文献公开了用于标识人体行为的基于规则的逻辑(不使用关键点);授予索尼公司的US8792722B2,专利技术名称为“手势检测(Hand gesture detection)”,将基于支持

向量

机器的机器学习应用于标识人体手势;授予台湾科技大学的US8928816B2,专利技术名称为“活动识别方法(Activity recognition method)”,使用类似于上述第四种方法40的基于规则的逻辑来标识姿态,然后使用基于支持

向量

机器的机器学习标识特定行为;授予卡内基梅隆大学/Arris企业有限责任公司的US9278255B2,专利技术名称为“活动识别的系统和方法(System and method for activity recognition)”,使用类似于上述第三种方法30和第四种方法40的方法,但不使用关键点。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,其特征在于,所述方法包括:接收帧序列中的帧的至少一个关键点位置集,所述至少一个关键点位置集包括在所述帧中检测到的人体的每个关键点的关键点位置,每个关键点位置对应于所述关键点在所述人体上的位置;为所述帧的所述至少一个关键点位置集中的每个关键点位置生成编码表示;将所述帧的所述至少一个关键点位置集中的每个关键点位置的所述编码表示提供给人体行为分类器,所述人体行为分类器包括机器学习模型,所述机器学习模型用于根据每个关键点位置集的所述编码表示来标识人体行为,并输出所标识的人体行为。2.根据权利要求1所述的方法,其特征在于,还包括:接收多个关键点位置集,每个关键点位置集对应于所述帧序列中的一个帧;为所述多个关键点位置集中的每个关键点位置集生成编码表示;将所述编码表示提供给所述人体行为分类器,所述人体行为分类器包括所述机器学习模型,所述机器学习模型用于根据所述多个编码表示标识人体行为,并输出所标识的人体行为。3.根据权利要求2所述的方法,其特征在于,还包括:接收所述帧序列;处理所述帧序列中的每个相应帧,以生成对应于所述相应帧的所述关键点位置集。4.根据权利要求3所述的方法,其特征在于,所述关键点位置集是使用关键点标识符生成的,所述关键点标识符用于:接收所述人体的边界框,所述边界框包括所述相应帧的多个像素的一个或多个像素值;处理所述边界框以标识所述边界框内的关键点,并为每个关键点生成关键点位置;生成关键点位置集,所述关键点位置集包括在所述帧中标识的每个关键点的所述关键点位置。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述编码表示是矩阵表示,所述机器学习模型是矩阵机器学习模型。6.根据权利要求1至5中任一项所述的方法,其特征在于,每个关键点位置对应于所述人体的关节。7.根据权利要求6所述的方法,其特征在于,每个编码表示包括:X矩阵,具有所述关键点位置集中的所述多个关键点位置的多个X像素坐标,第一X像素坐标和第二X像素坐标基于分别对应于所述第一X像素坐标和所述第二X像素坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内;Y矩阵,具有所述关键点位置集中的所述多个关键点位置的多个Y像素坐标,第一Y像素坐标和第二Y像素坐标基于分别对应于所述第一Y像素坐标和所述第二Y像素坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内。8.根据权利要求7所述的方法,其特征在于,每个编码表示还包括:Z矩阵,具有所述关键点位置集中的所述多个关键点位置的多个Z深度坐标,第一Z深度坐标和第二Z坐标基于分别对应于所述第一Z坐标和所述第二Z坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述编码表示是着色点表示,所述机器学习模型是着色点机器学习模型。10.根据权利要求9所述的方法,其特征在于,每个编码表示包括简化帧,所述简化帧包括基于所述关键点位置集位于所述简化帧内的多个唯一关键点视觉表示。11.根据权利要求10所述的方法,其特征在于:每个唯一关键点视觉表示包括二维形状,所述二维形状具有相对于每个其它唯一关键点视觉表示的唯一颜色;所述简化帧包括叠加在单色背景上的所述多个关键点视觉表示。12.根据权利要求6所述的方法,其特征在于,还包括:为所述帧的所述至少一个关键点位置集中的每个关键点位置生成第二编码表示;将所述帧的所述至少一个关键点位置集中的每个关键点位置的所述第二编码表示提供给所述人体行为分类器的着色点机器学习模型,所述着色点机器学习模型用于基于至少一个关键点位置集的所述第二编码表示来标识所述人体的第二行为,并输出所标识的第二人体行为;通过将由所述矩阵机器学习模型输出的所标识的人体行为与由所述着色点机器学习模型输出的所标识的第二人体行为组合,生成所述人体的最终行为。13.一种处理系统,其特征在于,包括:处...

【专利技术属性】
技术研发人员:华武
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1