用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质技术方案

技术编号：35808394 阅读：11 留言：0更新日期：2022-12-03 13:27

一种用于根据数字视频的帧序列对人体行为进行分类的方法、处理系统和处理器可读介质。2D卷积神经网络用于标识在每个帧内可见的人体上的关键点，例如人体关节。为每个视频帧创建所述关键点的编码表示。对应于所述帧序列的所述编码表示序列由3D CNN处理，所述3D CNN被训练为根据随时间变化的关键点位置标识人体行为。体行为。体行为。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质
[0001]相关申请的交叉引用
[0002]本申请要求于2020年4月6日提交的、专利技术名称为“使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质(METHOD,SYSTEM,AND MEDIUM FOR IDENTIFYING HUMAN BEHAVIOR IN A DIGITIAL VIDEO USING CONVOLUTIONAL NEURAL NETWORKS)”的美国专利申请序列号16/841,227的优先权，其内容通过引用的方式并入本文中。

[0003]本专利技术涉及数字视频中的人体跟踪，具体涉及用于标识数字视频中人体行为的方法、系统和处理器可读介质。

技术介绍

[0004]识别人体行为是计算机视觉研究中的一个长期的问题。虽然机器学习在计算机视觉领域取得了进步，包括在数字图像或数字视频中标识人体以及在数字视频的多帧上跟踪人体的移动的一系列方法，但在数字视频中标识或识别特定类型的人体行为仍然存在困难。
[0005]在计算机视觉中，机器学习已被应用于人体行为标识问题，但成功率低。目前的机器学习方法在从数字视频中识别和标识人体行为方面表现出远低于人类水平的准确性。例如，Facebook开发的一种系统根据数字视频中显示的人体行为标识被禁止的视频内容形式，该系统在2019年年初上了新闻头条，原因是它未能在上传到平台的视频中检测到新西兰大规模枪手的暴力行为(参见https://www.nbcnews.com/tech/t

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，其特征在于，所述方法包括：接收帧序列中的帧的至少一个关键点位置集，所述至少一个关键点位置集包括在所述帧中检测到的人体的每个关键点的关键点位置，每个关键点位置对应于所述关键点在所述人体上的位置；为所述帧的所述至少一个关键点位置集中的每个关键点位置生成编码表示；将所述帧的所述至少一个关键点位置集中的每个关键点位置的所述编码表示提供给人体行为分类器，所述人体行为分类器包括机器学习模型，所述机器学习模型用于根据每个关键点位置集的所述编码表示来标识人体行为，并输出所标识的人体行为。2.根据权利要求1所述的方法，其特征在于，还包括：接收多个关键点位置集，每个关键点位置集对应于所述帧序列中的一个帧；为所述多个关键点位置集中的每个关键点位置集生成编码表示；将所述编码表示提供给所述人体行为分类器，所述人体行为分类器包括所述机器学习模型，所述机器学习模型用于根据所述多个编码表示标识人体行为，并输出所标识的人体行为。3.根据权利要求2所述的方法，其特征在于，还包括：接收所述帧序列；处理所述帧序列中的每个相应帧，以生成对应于所述相应帧的所述关键点位置集。4.根据权利要求3所述的方法，其特征在于，所述关键点位置集是使用关键点标识符生成的，所述关键点标识符用于：接收所述人体的边界框，所述边界框包括所述相应帧的多个像素的一个或多个像素值；处理所述边界框以标识所述边界框内的关键点，并为每个关键点生成关键点位置；生成关键点位置集，所述关键点位置集包括在所述帧中标识的每个关键点的所述关键点位置。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述编码表示是矩阵表示，所述机器学习模型是矩阵机器学习模型。6.根据权利要求1至5中任一项所述的方法，其特征在于，每个关键点位置对应于所述人体的关节。7.根据权利要求6所述的方法，其特征在于，每个编码表示包括：X矩阵，具有所述关键点位置集中的所述多个关键点位置的多个X像素坐标，第一X像素坐标和第二X像素坐标基于分别对应于所述第一X像素坐标和所述第二X像素坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内；Y矩阵，具有所述关键点位置集中的所述多个关键点位置的多个Y像素坐标，第一Y像素坐标和第二Y像素坐标基于分别对应于所述第一Y像素坐标和所述第二Y像素坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内。8.根据权利要求7所述的方法，其特征在于，每个编码表示还包括：Z矩阵，具有所述关键点位置集中的所述多个关键点位置的多个Z深度坐标，第一Z深度坐标和第二Z坐标基于分别对应于所述第一Z坐标和所述第二Z坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内。
9.根据权利要求1至8中任一项所述的方法，其特征在于，所述编码表示是着色点表示，所述机器学习模型是着色点机器学习模型。10.根据权利要求9所述的方法，其特征在于，每个编码表示包括简化帧，所述简化帧包括基于所述关键点位置集位于所述简化帧内的多个唯一关键点视觉表示。11.根据权利要求10所述的方法，其特征在于：每个唯一关键点视觉表示包括二维形状，所述二维形状具有相对于每个其它唯一关键点视觉表示的唯一颜色；所述简化帧包括叠加在单色背景上的所述多个关键点视觉表示。12.根据权利要求6所述的方法，其特征在于，还包括：为所述帧的所述至少一个关键点位置集中的每个关键点位置生成第二编码表示；将所述帧的所述至少一个关键点位置集中的每个关键点位置的所述第二编码表示提供给所述人体行为分类器的着色点机器学习模型，所述着色点机器学习模型用于基于至少一个关键点位置集的所述第二编码表示来标识所述人体的第二行为，并输出所标识的第二人体行为；通过将由所述矩阵机器学习模型输出的所标识的人体行为与由所述着色点机器学习模型输出的所标识的第二人体行为组合，生成所述人体的最终行为。13.一种处理系统，其特征在于，包括：处...

【专利技术属性】
技术研发人员：华武，
申请(专利权)人：华为云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人