动作边界检测模型、模型训练方法、设备及存储介质技术

技术编号:34525653 阅读:19 留言:0更新日期:2022-08-13 21:16
本发明专利技术公开了动作边界检测模型、模型训练方法、设备及存储介质,该动作边界检测模型包括:时序动作提名网络用于根据视频特征预测动作候选区域;时序单向特征处理模块,用于根据视频特征提取动作候选区域对应的时序单向特征;线性插值采样模块,用于基于动作候选区域,截取时序单向特征中的待识别特征;动作检测网络,用于根据动作候选区域以及待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。本发明专利技术提高了检测视频中动作类别和动作边界的检测效率和准确性。和动作边界的检测效率和准确性。和动作边界的检测效率和准确性。

【技术实现步骤摘要】
动作边界检测模型、模型训练方法、设备及存储介质


[0001]本专利技术涉及视频处理
,尤其涉及一种动作边界检测模型、模型训练方法、设备及存储介质。

技术介绍

[0002]当今社会中视频社交越来越热门,视频内容分析逐渐的变成人工智能(Artificial Intelligence,简称AI)领域的一大重点,目前较多的视频分析还是在研究已裁剪视频的内容理解上,对于从未裁剪视频中识别出相关场景的研究还起步不久。例如,从未裁剪视频中进行动作片段检测,动作片段检测是指在一段视频里,检测出人的动作以及发生的时间和地点。
[0003]目前现有的动作片段检测方法为:通过对视频片段进行不同时间尺度的采样,在得到的多尺度采样片段中,利用单尺度的滑窗片段采样,然后使用深度残差网络进行二分类,利用网络输出结果和投票方式判断多尺度片段是否包含动作,进而采用帧级别的动作识别方法输出每一个视频帧的动作类别,并根据每一帧的结果采用统计融合策略得到动作类别和动作边界。该方法采用滑窗的方式得到检测结果是比较粗糙的,滑窗越多计算量就越大,计算速度就越慢,之后对每一帧识别,没有很好的利用整个视频中的帧间信息,导致动作边界识别存在不准确的问题。

技术实现思路

[0004]本专利技术实施例通过提供一种动作边界检测模型、模型训练方法、设备及存储介质,旨在解决通过现有的动作片段检测方法进行视频中动作边界识别,存在动作边界识别不准确的技术问题。
[0005]本专利技术实施例提供了一种动作边界检测模型,所述动作边界检测模型包括:<br/>[0006]时序动作提名网络,用于根据视频特征预测动作候选区域,其中,所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段;
[0007]时序单向特征处理模块,用于根据所述视频特征提取所述动作候选区域对应的时序单向特征;
[0008]线性插值采样模块,用于基于所述动作候选区域,截取所述时序单向特征中的待识别特征;
[0009]动作检测网络,用于根据所述动作候选区域以及所述待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。
[0010]在一实施例中,所述时序动作提名网络包括:
[0011]边界敏感网络;
[0012]提名选择模块,所述边界敏感网络与所述提名选择模块连接,所述提名选择模块包括矩阵乘法和排序过滤。
[0013]在一实施例中,所述时序单向特征处理模块包括依次连接的n个时序单向卷积,每
个所述时序单向卷积具有空洞系数,且任意相邻的两个所述时序单向卷积的空洞系数之间的比值相同。
[0014]此外本专利技术还提供了一种模型训练方法,应用于所述的动作边界检测模型,所述模型训练方法包括:
[0015]获取样本视频的视频特征和标注信息;
[0016]将所述视频特征输入时序动作提名网络,得到动作候选区域,所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段;
[0017]将所述视频特征输入时序单向特征处理模块,输出所述动作候选区域对应的时序单向特征;
[0018]将所述起始时刻、所述结束时刻和所述时序单向特征输入线性插值采样模块,输出待识别特征,所述待识别特征为所述线性插值采样模块根据所述起始时刻和所述结束时刻从所述时序单向特征中截取的局部特征;
[0019]将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络,输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻;
[0020]根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练,得到训练后的所述动作边界检测模型。
[0021]在一实施例中,所述将所述视频特征输入时序单向特征处理模块,输出所述动作候选区域对应的时序单向特征的步骤包括:
[0022]通过所述时序单向特征处理模块从所述视频特征中提取所述动作候选区域对应的每一视频帧的第一图像特征,以及所述视频帧之前的视频帧的第二图像特征;
[0023]将所述第二图像特征与所述第一图像特征进行单向融合,得到所述时序单向特征。
[0024]在一实施例中,所述将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络,输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻的步骤包括:
[0025]通过所述动作检测网络识别所述待识别特征,得到所述动作候选区域的动作类别、所述起始时刻的第一变化量以及所述结束时刻的第二变化量;
[0026]根据所述起始时刻和所述第一变化量确定所述实际起始时刻;以及,
[0027]根据所述结束时刻和所述第二变化量确定所述实际结束时刻。
[0028]在一实施例中,所述根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练,得到训练后的所述动作边界检测模型的步骤包括:
[0029]根据所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻,确定动作类别损失值、起始时刻损失值以及结束时刻损失值;
[0030]在所述动作类别损失值小于第一阈值、所述起始时刻损失值小于第二阈值以及所述结束时刻损失值小于第三阈值时,停止所述动作边界检测模型的训练,得到训练后的所述动作边界检测模型。
[0031]在一实施例中,所述获取样本视频的视频特征和标注信息的步骤之前,还包括:
[0032]基于预先训练的分类网络提取所述样本视频中每一视频帧的图像特征向量;
[0033]根据所述每一视频帧的图像特征向量生成所述视频特征。
[0034]此外,为实现上述目的,本专利技术还提供了一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序,所述模型训练程序被所述处理器执行时实现上述的模型训练方法的步骤。
[0035]此外,为实现上述目的,本专利技术还提供了一种存储介质,其上存储有模型训练程序,所述模型训练程序被处理器执行时实现上述的模型训练方法的步骤。
[0036]本专利技术实施例中提供的一种动作边界检测模型、模型训练方法、设备及存储介质的技术方案,至少具有如下技术效果或优点:
[0037]本专利技术的动作边界检测模型包括时序动作提名网络用于根据视频特征预测动作候选区域;时序单向特征处理模块用于根据视频特征提取动作候选区域对应的时序单向特征;线性插值采样模块用于基于动作候选区域截取时序单向特征中的待识别特征;动作检测网络用于根据动作候选区域以及待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。本专利技术通过动作边界检测模型检测视频中动作类别和动作边界,提高了检测视频中动作类别和动作边界的检测效率和准确性。
附图说明
[0038]图1为本专利技术模型训练装置的结构示意图;
[0039]图2为时序动作提名网络的结构示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作边界检测模型,其特征在于,所述动作边界检测模型包括:时序动作提名网络,用于根据视频特征预测动作候选区域,其中,所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段;时序单向特征处理模块,用于根据所述视频特征提取所述动作候选区域对应的时序单向特征;线性插值采样模块,用于基于所述动作候选区域,截取所述时序单向特征中的待识别特征;动作检测网络,用于根据所述动作候选区域以及所述待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。2.如权利要求1所述的动作边界检测模型,其特征在于,所述时序动作提名网络包括:边界敏感网络;提名选择模块,所述边界敏感网络与所述提名选择模块连接,所述提名选择模块包括矩阵乘法和排序过滤。3.如权利要求1所述的动作边界检测模型,其特征在于,所述时序单向特征处理模块包括依次连接的n个时序单向卷积,每个所述时序单向卷积具有空洞系数,且任意相邻的两个所述时序单向卷积的空洞系数之间的比值相同。4.一种模型训练方法,其特征在于,应用于如权利要求1

3中任一项所述的动作边界检测模型,所述模型训练方法包括:获取样本视频的视频特征和标注信息;将所述视频特征输入时序动作提名网络,得到动作候选区域,所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段;将所述视频特征输入时序单向特征处理模块,输出所述动作候选区域对应的时序单向特征;将所述起始时刻、所述结束时刻和所述时序单向特征输入线性插值采样模块,输出待识别特征,所述待识别特征为所述线性插值采样模块根据所述起始时刻和所述结束时刻从所述时序单向特征中截取的局部特征;将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络,输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻;根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练,得到训练后的所述动作边界检测模型。5.如权利要求4所述的模型训练方法,其特征在于,所述将所述视频特征输入时序单向特征处理模块,输出所述动作候选区域...

【专利技术属性】
技术研发人员:谢中流刘恒利啟东江利勤钟凯宇
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1