The embodiment of the invention discloses an action characteristic acquisition method, a device and a storage medium, belonging to the computer technology field. The H LSTCM model includes the input layer, the hidden layer, the Co LSTM layer and the output layer. The method includes: after calculating the hidden layer state of each object by the hidden layer, the memory cells of the target video are calculated by the Co LSTM layer, and the output gate of the target video is calculated by the output layer, and then calculated according to the memory cells and the output gates. The action feature of the target video is Ht. The interaction features of multiple objects are merged selectively through the Co LSTM layer, thus ensuring that the extracted action features not only include single person action features and interactive action features, but also improve the accuracy and comprehensiveness of the action features, and the extracted action features should be used in the action recognition scene. Enough to improve the accuracy of action recognition.
【技术实现步骤摘要】
动作特征获取方法、装置及存储介质
本专利技术涉及计算机
,特别涉及一种动作特征获取方法、装置及存储介质。
技术介绍
动作识别是计算机视觉和模式识别领域的一项重要研究课题,通过动作识别能够自动理解视频中人们所做的动作,可以广泛应用于公共场所监控、人机交互等多种领域。而提取动作特征是动作识别过程的关键环节,只有提取到准确的动作特征,才能准确地进行动作识别。LSTM(LongShort-TermMemory,长短期记忆)模型是一种常用的动作特征获取方法,LSTM模型中包括输入层、隐藏层和输出层,隐藏层中包括多个单人LSTM模型。考虑到目标视频中通常包括多个对象,则输入层提取出多个对象的图像特征,分别输入到隐藏层的多个单人LSTM模型中,通过多个单人LSTM模型分别获取该多个对象的单人动作特征,之后输出层将多个单人LSTM模型获取到的单人动作特征进行融合,即可得到目标视频的动作特征。其中,单人LSTM模型在获取对象在当前时刻的单人动作特征时,会考虑该对象在上一时刻的单人动作特征以及该对象在当前时刻视频帧中的图像特征。如图1所示,目标视频中包括对象A和对象B的动作,以获取t时刻的动作特征为例,将对象A在t-1时刻的单人动作特征与对象A在t时刻视频帧中的图像特征输入到单人LSTM模型1中,通过单人LSTM模型1得到对象A在t时刻的单人动作特征,同理通过单人LSTM模型2也会提取到对象B在t时刻的单人动作特征,则将这两个对象的单人动作特征进行融合,即可得到t时刻视频帧的动作特征。但是,目标视频中不仅包括单人动作还可能会包括交互动作,如握手、拥抱、说话等,而上述动作 ...
【技术保护点】
1.一种动作特征获取方法,其特征在于,具有层次性的长短期并发记忆H‑LSTCM模型中包括输入层、隐藏层、长短期并发记忆Co‑LSTM层和输出层,所述隐藏层中包括多个单人LSTM模型,所述方法包括:通过所述输入层,根据目标视频在t时刻的视频帧中的p个对象,提取每个对象s在所述t时刻的图像特征
【技术特征摘要】
1.一种动作特征获取方法,其特征在于,具有层次性的长短期并发记忆H-LSTCM模型中包括输入层、隐藏层、长短期并发记忆Co-LSTM层和输出层,所述隐藏层中包括多个单人LSTM模型,所述方法包括:通过所述输入层,根据目标视频在t时刻的视频帧中的p个对象,提取每个对象s在所述t时刻的图像特征所述目标视频包括T个时刻的视频帧,s∈{1,2,...p},t∈{1,2,...T},p和T为大于1的整数;通过所述隐藏层中与每个对象s对应的单人LSTM模型,根据每个对象s在t-1时刻的隐层状态和每个对象s在所述t时刻的图像特征获取每个对象s在所述t时刻的隐层状态所述由与每个对象s对应的单人LSTM模型在所述t-1时刻获取;通过所述Co-LSTM层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的记忆细胞Ct,所述记忆细胞Ct用于记忆所述p个对象在所述t时刻的隐层状态中的交互动作特征;通过所述输出层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的输出门Ot,所述输出门Ot用于确定所述p个对象在所述t时刻的隐层状态中需要输出的动作特征;根据所述目标视频在所述t时刻的记忆细胞Ct和输出门Ot,计算所述目标视频在所述t时刻的动作特征Ht。2.根据权利要求1所述的方法,其特征在于,所述Co-LSTM层包括多个子记忆单元和一个联合记忆单元,所述多个子记忆单元与所述多个单人LSTM模型一一对应;所述通过所述Co-LSTM层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的记忆细胞Ct,包括:通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的记忆细胞和细胞门所述记忆细胞用于记忆每个对象s在所述t时刻的隐层状态中提取的相关特征,所述细胞门用于从每个对象s在所述t时刻的隐层状态中提取相关特征;通过所述联合记忆单元,根据每个对象s在所述t时刻的记忆细胞和细胞门计算所述目标视频在所述t时刻的记忆细胞Ct。3.根据权利要求2所述的方法,其特征在于,所述通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的记忆细胞和细胞门包括:根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的输入门和遗忘门所述输入门用于保留每个对象s在所述t时刻的隐层状态中的相关特征,所述遗忘门用于将每个对象s在所述t时刻的隐层状态中的不相关特征去除;根据所述目标视频在所述t-1时刻的隐层状态ht-1、每个对象s在所述t时刻的隐层状态所述输入门和所述遗忘门每个对象s在所述t-1时刻的记忆细胞计算每个对象s在所述t时刻的记忆细胞4.根据权利要求3所述的方法,其特征在于,所述根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的输入门和遗忘门包括:采用以下公式,计算每个对象s在所述t时刻的输入门其中,σ(·)为阈值函数,Wix表示所述输入门与所述输入层之间的权重矩阵,Wih表示所述输入门与所述隐藏层之间的权重矩阵,bi表示所述输入门的偏置向量。5.根据权利要求3所述的方法,其特征在于,所述根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的输入门和遗忘门包括:采用以下公式,计算每个对象s在所述t时刻的遗忘门其中,σ(·)为阈值函数,Wfx表示所述遗忘门与所述输入层之间的权重矩阵,Wfh表示所述遗忘门与所述隐藏层之间的权重矩阵,bf表示所述遗忘门的偏置向量。6.根据权利要求2所述的方法,其特征在于,所述通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的记忆细胞和细胞门包括:采用以下公式,计算每个对象s在所述t时刻的记忆细胞其中,为双曲正切函数,×为向量的点乘函数,Wgx表示所述记忆细胞与所述输入层之间的权重矩阵,Wgh表示所述记忆细胞与所述隐藏层之间的权重矩阵,bg表示所述记忆细胞的偏置向量。7.根据权利要求2所述的方法,其特征在于,所述通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1...
【专利技术属性】
技术研发人员:舒祥波,严锐,马林,唐金辉,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。