动作特征获取方法、装置及存储介质制造方法及图纸

技术编号:18459023 阅读:21 留言:0更新日期:2018-07-18 12:47
本发明专利技术实施例公开了一种动作特征获取方法、装置及存储介质,属于计算机技术领域。H‑LSTCM模型中包括输入层、隐藏层、Co‑LSTM层和输出层,该方法包括:在通过隐藏层计算每个对象的隐层状态之后,通过Co‑LSTM层计算目标视频的记忆细胞,通过输出层计算目标视频的输出门,进而根据记忆细胞和输出门计算出目标视频的动作特征Ht。通过Co‑LSTM层有选择地整合并记忆多个对象的交互动作特征,从而保证提取到的动作特征中不仅包含单人动作特征还包括交互动作特征,提高了动作特征的准确率和全面性,并且将提取的上述动作特征应用于动作识别场景,能够提高动作识别的准确率。

Action feature acquisition method, device and storage medium

The embodiment of the invention discloses an action characteristic acquisition method, a device and a storage medium, belonging to the computer technology field. The H LSTCM model includes the input layer, the hidden layer, the Co LSTM layer and the output layer. The method includes: after calculating the hidden layer state of each object by the hidden layer, the memory cells of the target video are calculated by the Co LSTM layer, and the output gate of the target video is calculated by the output layer, and then calculated according to the memory cells and the output gates. The action feature of the target video is Ht. The interaction features of multiple objects are merged selectively through the Co LSTM layer, thus ensuring that the extracted action features not only include single person action features and interactive action features, but also improve the accuracy and comprehensiveness of the action features, and the extracted action features should be used in the action recognition scene. Enough to improve the accuracy of action recognition.

【技术实现步骤摘要】
动作特征获取方法、装置及存储介质
本专利技术涉及计算机
,特别涉及一种动作特征获取方法、装置及存储介质。
技术介绍
动作识别是计算机视觉和模式识别领域的一项重要研究课题,通过动作识别能够自动理解视频中人们所做的动作,可以广泛应用于公共场所监控、人机交互等多种领域。而提取动作特征是动作识别过程的关键环节,只有提取到准确的动作特征,才能准确地进行动作识别。LSTM(LongShort-TermMemory,长短期记忆)模型是一种常用的动作特征获取方法,LSTM模型中包括输入层、隐藏层和输出层,隐藏层中包括多个单人LSTM模型。考虑到目标视频中通常包括多个对象,则输入层提取出多个对象的图像特征,分别输入到隐藏层的多个单人LSTM模型中,通过多个单人LSTM模型分别获取该多个对象的单人动作特征,之后输出层将多个单人LSTM模型获取到的单人动作特征进行融合,即可得到目标视频的动作特征。其中,单人LSTM模型在获取对象在当前时刻的单人动作特征时,会考虑该对象在上一时刻的单人动作特征以及该对象在当前时刻视频帧中的图像特征。如图1所示,目标视频中包括对象A和对象B的动作,以获取t时刻的动作特征为例,将对象A在t-1时刻的单人动作特征与对象A在t时刻视频帧中的图像特征输入到单人LSTM模型1中,通过单人LSTM模型1得到对象A在t时刻的单人动作特征,同理通过单人LSTM模型2也会提取到对象B在t时刻的单人动作特征,则将这两个对象的单人动作特征进行融合,即可得到t时刻视频帧的动作特征。但是,目标视频中不仅包括单人动作还可能会包括交互动作,如握手、拥抱、说话等,而上述动作特征获取方法将多个对象看作是独立的个体,忽略了不同对象动作之间的关联性,无法提取到交互动作的动作特征。
技术实现思路
本专利技术实施例提供了一种动作特征获取方法、装置及存储介质,可以解决相关技术的问题。所述技术方案如下:第一方面,提供了一种动作特征获取方法,具有层次性的长短期并发记忆H-LSTCM模型中包括输入层、隐藏层、长短期并发记忆Co-LSTM层和输出层,所述隐藏层中包括多个单人LSTM模型;所述方法包括:通过所述输入层,根据目标视频在t时刻的视频帧中的p个对象,提取每个对象s在所述t时刻的图像特征所述目标视频包括T个时刻的视频帧,s∈{1,2,...p},t∈{1,2,...T},p和T为大于1的整数;通过所述隐藏层中与每个对象s对应的单人LSTM模型,根据每个对象s在t-1时刻的隐层状态和每个对象s在所述t时刻的图像特征获取每个对象s在所述t时刻的隐层状态所述由与每个对象s对应的单人LSTM模型在所述t-1时刻获取;通过所述Co-LSTM层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的记忆细胞Ct,所述记忆细胞Ct用于记忆所述p个对象在所述t时刻的隐层状态中的交互动作特征;通过所述输出层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的输出门Ot,所述输出门Ot用于确定所述p个对象在所述t时刻的隐层状态中需要输出的动作特征;根据所述目标视频在所述t时刻的记忆细胞Ct和输出门Ot,计算所述目标视频在所述t时刻的动作特征Ht。第二方面,提供了一种动作特征获取装置,所述装置包括:输入层模块、隐藏层模块、并发记忆模块和输出层模块,所述隐藏层模块包括多个单人隐层子模块;所述输入层模块,用于根据目标视频在t时刻的视频帧中的p个对象,提取每个对象s在所述t时刻的图像特征所述目标视频包括T个时刻的视频帧,s∈{1,2,...p},t∈{1,2,...T},p和T为大于1的整数;所述每个单人隐层子模块,用于根据每个对象s在t-1时刻的隐层状态和每个对象s在所述t时刻的图像特征获取每个对象s在所述t时刻的隐层状态所述由与每个对象s对应的单人LSTM模型在所述t-1时刻获取;所述并发记忆模块,用于根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的记忆细胞Ct,所述记忆细胞Ct用于记忆所述p个对象在所述t时刻的隐层状态中的交互动作特征;所述输出层模块,用于根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的输出门Ot,所述输出门Ot用于确定所述p个对象在所述t时刻的隐层状态中需要输出的动作特征;所述输出层模块,还用于根据所述目标视频在所述t时刻的记忆细胞Ct和输出门Ot,计算所述目标视频在所述t时刻的动作特征Ht。第三方面,提供了一种动作特征获取装置,所述动作特征获取装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如第一方面所述的动作特征获取方法中所执行的操作。第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如第一方面所述的动作特征获取方法中所执行的操作。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例提供的方法、装置及存储介质,提供了一种H-LSTCM模型,H-LSTCM模型包括输入层、隐藏层、Co-LSTM层和输出层,在通过隐藏层计算出隐层状态之后,通过Co-LSTM层有选择地整合并记忆多个对象的交互动作特征,从而保证提取到的动作特征中不仅包含单人动作特征还包括交互动作特征,提高了动作特征的准确率和全面性,并且将提取的上述动作特征应用于动作识别场景,能够提高动作识别的准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种LSTM模型的结构示意图;图2是本专利技术实施例提供的一种H-LSTCM模型的结构示意图;图3是本专利技术实施例提供的一种动作特征获取方法的流程图;图4是本专利技术实施例提供的一种H-LSTCM模型的Co-LSTM层和输出层的结构示意图;图5是本专利技术实施例提供的一种动作特征获取装置的结构示意图;图6是本专利技术一个示例性实施例提供的终端的结构框图;图7是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种H-LSTCM(HierarchicalLongShort-TermConcurrentMemories,具有层次性的长短期并发记忆)模型,该H-LSTCM模型在提取目标视频的动作特征时,不仅可以提取到每个对象的单人动作特征,而且还能提取到不同对象之间的并发关联本文档来自技高网
...

【技术保护点】
1.一种动作特征获取方法,其特征在于,具有层次性的长短期并发记忆H‑LSTCM模型中包括输入层、隐藏层、长短期并发记忆Co‑LSTM层和输出层,所述隐藏层中包括多个单人LSTM模型,所述方法包括:通过所述输入层,根据目标视频在t时刻的视频帧中的p个对象,提取每个对象s在所述t时刻的图像特征

【技术特征摘要】
1.一种动作特征获取方法,其特征在于,具有层次性的长短期并发记忆H-LSTCM模型中包括输入层、隐藏层、长短期并发记忆Co-LSTM层和输出层,所述隐藏层中包括多个单人LSTM模型,所述方法包括:通过所述输入层,根据目标视频在t时刻的视频帧中的p个对象,提取每个对象s在所述t时刻的图像特征所述目标视频包括T个时刻的视频帧,s∈{1,2,...p},t∈{1,2,...T},p和T为大于1的整数;通过所述隐藏层中与每个对象s对应的单人LSTM模型,根据每个对象s在t-1时刻的隐层状态和每个对象s在所述t时刻的图像特征获取每个对象s在所述t时刻的隐层状态所述由与每个对象s对应的单人LSTM模型在所述t-1时刻获取;通过所述Co-LSTM层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的记忆细胞Ct,所述记忆细胞Ct用于记忆所述p个对象在所述t时刻的隐层状态中的交互动作特征;通过所述输出层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的输出门Ot,所述输出门Ot用于确定所述p个对象在所述t时刻的隐层状态中需要输出的动作特征;根据所述目标视频在所述t时刻的记忆细胞Ct和输出门Ot,计算所述目标视频在所述t时刻的动作特征Ht。2.根据权利要求1所述的方法,其特征在于,所述Co-LSTM层包括多个子记忆单元和一个联合记忆单元,所述多个子记忆单元与所述多个单人LSTM模型一一对应;所述通过所述Co-LSTM层,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算所述目标视频在所述t时刻的记忆细胞Ct,包括:通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的记忆细胞和细胞门所述记忆细胞用于记忆每个对象s在所述t时刻的隐层状态中提取的相关特征,所述细胞门用于从每个对象s在所述t时刻的隐层状态中提取相关特征;通过所述联合记忆单元,根据每个对象s在所述t时刻的记忆细胞和细胞门计算所述目标视频在所述t时刻的记忆细胞Ct。3.根据权利要求2所述的方法,其特征在于,所述通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的记忆细胞和细胞门包括:根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的输入门和遗忘门所述输入门用于保留每个对象s在所述t时刻的隐层状态中的相关特征,所述遗忘门用于将每个对象s在所述t时刻的隐层状态中的不相关特征去除;根据所述目标视频在所述t-1时刻的隐层状态ht-1、每个对象s在所述t时刻的隐层状态所述输入门和所述遗忘门每个对象s在所述t-1时刻的记忆细胞计算每个对象s在所述t时刻的记忆细胞4.根据权利要求3所述的方法,其特征在于,所述根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的输入门和遗忘门包括:采用以下公式,计算每个对象s在所述t时刻的输入门其中,σ(·)为阈值函数,Wix表示所述输入门与所述输入层之间的权重矩阵,Wih表示所述输入门与所述隐藏层之间的权重矩阵,bi表示所述输入门的偏置向量。5.根据权利要求3所述的方法,其特征在于,所述根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的输入门和遗忘门包括:采用以下公式,计算每个对象s在所述t时刻的遗忘门其中,σ(·)为阈值函数,Wfx表示所述遗忘门与所述输入层之间的权重矩阵,Wfh表示所述遗忘门与所述隐藏层之间的权重矩阵,bf表示所述遗忘门的偏置向量。6.根据权利要求2所述的方法,其特征在于,所述通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1时刻的隐层状态ht-1和每个对象s在所述t时刻的隐层状态计算每个对象s在所述t时刻的记忆细胞和细胞门包括:采用以下公式,计算每个对象s在所述t时刻的记忆细胞其中,为双曲正切函数,×为向量的点乘函数,Wgx表示所述记忆细胞与所述输入层之间的权重矩阵,Wgh表示所述记忆细胞与所述隐藏层之间的权重矩阵,bg表示所述记忆细胞的偏置向量。7.根据权利要求2所述的方法,其特征在于,所述通过所述Co-LSTM层的每个子记忆单元,根据所述目标视频在所述t-1...

【专利技术属性】
技术研发人员:舒祥波严锐马林唐金辉
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1