动作边界检测模型、模型训练方法、设备及存储介质技术

技术编号：34525653 阅读：19 留言：0更新日期：2022-08-13 21:16

本发明专利技术公开了动作边界检测模型、模型训练方法、设备及存储介质，该动作边界检测模型包括：时序动作提名网络用于根据视频特征预测动作候选区域；时序单向特征处理模块，用于根据视频特征提取动作候选区域对应的时序单向特征；线性插值采样模块，用于基于动作候选区域，截取时序单向特征中的待识别特征；动作检测网络，用于根据动作候选区域以及待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。本发明专利技术提高了检测视频中动作类别和动作边界的检测效率和准确性。和动作边界的检测效率和准确性。和动作边界的检测效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
动作边界检测模型、模型训练方法、设备及存储介质

[0001]本专利技术涉及视频处理
，尤其涉及一种动作边界检测模型、模型训练方法、设备及存储介质。

技术介绍

[0002]当今社会中视频社交越来越热门，视频内容分析逐渐的变成人工智能(Artificial Intelligence，简称AI)领域的一大重点，目前较多的视频分析还是在研究已裁剪视频的内容理解上，对于从未裁剪视频中识别出相关场景的研究还起步不久。例如，从未裁剪视频中进行动作片段检测，动作片段检测是指在一段视频里，检测出人的动作以及发生的时间和地点。
[0003]目前现有的动作片段检测方法为：通过对视频片段进行不同时间尺度的采样，在得到的多尺度采样片段中，利用单尺度的滑窗片段采样，然后使用深度残差网络进行二分类，利用网络输出结果和投票方式判断多尺度片段是否包含动作，进而采用帧级别的动作识别方法输出每一个视频帧的动作类别，并根据每一帧的结果采用统计融合策略得到动作类别和动作边界。该方法采用滑窗的方式得到检测结果是比较粗糙的，滑窗越多计算量就越大，计算速度就越慢，之后对每一帧识别，没有很好的利用整个视频中的帧间信息，导致动作边界识别存在不准确的问题。

技术实现思路

[0004]本专利技术实施例通过提供一种动作边界检测模型、模型训练方法、设备及存储介质，旨在解决通过现有的动作片段检测方法进行视频中动作边界识别，存在动作边界识别不准确的技术问题。
[0005]本专利技术实施例提供了一种动作边界检测模型，所述动作边界检测模型包括：<...

【技术保护点】

【技术特征摘要】
1.一种动作边界检测模型，其特征在于，所述动作边界检测模型包括：时序动作提名网络，用于根据视频特征预测动作候选区域，其中，所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段；时序单向特征处理模块，用于根据所述视频特征提取所述动作候选区域对应的时序单向特征；线性插值采样模块，用于基于所述动作候选区域，截取所述时序单向特征中的待识别特征；动作检测网络，用于根据所述动作候选区域以及所述待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。2.如权利要求1所述的动作边界检测模型，其特征在于，所述时序动作提名网络包括：边界敏感网络；提名选择模块，所述边界敏感网络与所述提名选择模块连接，所述提名选择模块包括矩阵乘法和排序过滤。3.如权利要求1所述的动作边界检测模型，其特征在于，所述时序单向特征处理模块包括依次连接的n个时序单向卷积，每个所述时序单向卷积具有空洞系数，且任意相邻的两个所述时序单向卷积的空洞系数之间的比值相同。4.一种模型训练方法，其特征在于，应用于如权利要求1
‑
3中任一项所述的动作边界检测模型，所述模型训练方法包括：获取样本视频的视频特征和标注信息；将所述视频特征输入时序动作提名网络，得到动作候选区域，所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段；将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域对应的时序单向特征；将所述起始时刻、所述结束时刻和所述时序单向特征输入线性插值采样模块，输出待识别特征，所述待识别特征为所述线性插值采样模块根据所述起始时刻和所述结束时刻从所述时序单向特征中截取的局部特征；将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络，输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻；根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练，得到训练后的所述动作边界检测模型。5.如权利要求4所述的模型训练方法，其特征在于，所述将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域...

【专利技术属性】
技术研发人员：谢中流，刘恒，利啟东，江利勤，钟凯宇，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人