视频片段描述的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24498063 阅读：31 留言：0更新日期：2020-06-13 03:51

本申请公开了视频片段描述的生成方法、装置、电子设备及存储介质，涉及视频处理技术领域。具体实现方案为：采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；本申请通过采用视频片段筛选模块可以对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；然后再采用视频片段描述模块对各视频片段进行描述，这样，可以避免对所有的视频提议片段进行描述，可以仅对筛选后的与视频的相关性较强的、适合描述的视频片段进行描述，去除不适合描述的视频片段的描述对视频描述的干扰，保证最终的视频片段描述的准确性，提高视频片段描述的质量。

Generation method, device, electronic equipment and storage medium of video clip description

全部详细技术资料下载

【技术实现步骤摘要】
视频片段描述的生成方法、装置、电子设备及存储介质
本申请涉及计算机
，尤其涉及视频处理技术，具体涉及一种视频片段描述的生成方法、装置、电子设备及存储介质。
技术介绍
通常情况下，视频片段描述生成技术有很多重要应用，例如为视频检索提供依据，帮助视觉障碍人士观看视频，辅助智能弹幕生成等等。视频片段描述生成主要是通过分析、理解视频内的图像信息、运动信息、音频信息，给视频内的多个片段分别生成视频内容的文本描述。其中多个片段可为由算法预测出的适合生成描述的片段，也可以是人为指定好的特定片段。现有的视频片段描述生成一般分为两个独立的阶段，第一个阶段预测适合生成描述的视频内容片段，第二阶段针对每个片段分别生成描述。具体地，在第一个阶段中，使用人类标注好的每个视频对应的适合生成描述的片段，训练一个视频片段检测模型。该视频片段检测模型输入为整个视频，输出为多个视频片段的起点和终点。然后，在第二个阶段中，将视频按照人类标注好的视频片段进行切分，对每个视频片段标注视频的对应描述，训练一个视频片段描述生成模型。该视频片段描述生成模型输...

【技术保护点】
1.一种视频片段描述的生成方法，其特征在于，包括：/n采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；/n采用所述视频描述模型中的视频片段描述模块对各视频片段进行描述。/n

【技术特征摘要】
1.一种视频片段描述的生成方法，其特征在于，包括：
采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段；
采用所述视频描述模型中的视频片段描述模块对各视频片段进行描述。

2.根据权利要求1所述的方法，其特征在于，所述视频描述模型中的所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。

3.根据权利要求2所述的方法，其特征在于，采用视频描述模型中的视频片段筛选模块对预先获取到的多个视频提议片段进行筛选，获取适合描述的多个视频片段之前，所述方法还包括：
采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段；或者
获取通过人工方式从所述待分析的视频中提取的所述多个视频提议片段；
进一步地，若所述视频描述模型中还包括所述视频片段提议模块，所述视频描述模型中的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。

4.根据权利要求3所述的方法，其特征在于，采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段，包括：
提取所述待分析的视频中的各视频帧；
采用预训练的第一子模型、第二子模型和第三子模型中的至少一种，分别提取各所述视频帧中的视频帧特征，得到对应的视频帧特征序列，共得到至少一个视频帧特征序列；
对于各所述视频帧特征序列，采用预先训练的置信度统计模型，获取对应的片段置信度图，共得到至少一种片段置信度图；
根据所述至少一种片段置信度图，获取所述待分析的视频中的多个视频提议片段。

5.根据权利要求4所述的方法，其特征在于，根据所述至少一种片段置信度图，获取所述待分析的视频中的多个视频提议片段，包括：
若仅包括一种所述片段置信度图时，根据所述片段置信度图中各所述视频片段的置信度，获取置信度前topN个视频片段，作为对应的所述视频提议片段；
若包括至少两种所述片段置信度图时，将所述至少两种片段置信度图中相同片段的置信度进行加权融合，得到融合后的各片段的置信度；根据融合各所述片段的置信度，获取置信度前topN个视频片段，作为对应的所述视频提议片段。

6.根据权利要求4所述的方法，其特征在于，采用所述视频描述模型中的视频片段筛选模块对所述多个视频提议片段进行筛选，获取适合描述的多个视频片段，包括：
获取所述待分析的视频的特征；
获取各所述视频提议片段的特征；
采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征，从所述多个视频提议片段中筛选出适合描述的所述多个视频片段。

7.根据权利要求6所述的方法，其特征在于，采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征，从所述多个视频提议片段中筛选出适合描述的所述多个视频片段，包括：
对于所述多个视频提议片段中的各所述视频提议片段，将所述视频提议片段的特征和所述待分析的视频的特征，输入至所述分类模型中，并获取所述分类模型输出的概率值；
判断输出的所述概率值是否大于预设概率阈值；
若是，确定所述视频提议片段为适合描述的视频片段，共得到适合描述的所述多个视频片段。

8.一种视频描述模型的训练方法，其特征在于，包括：
对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练；
对经过预训练后的所述视频片段筛选模块和所述视频片段描述模块进行联合训练。

9.根据权利要求8所述的方法，其特征在于，若所述视频描述模型中还包括视频片段提议模块时，所述方法还包括：
对所述视频描述模型中的视频片段提议模块独立进行预训练；
对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练。

10.根据权利要求9所述的方法，其特征在于，对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练，包括：
依次保持所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块中任意两个固定不变，使用强化学习的方法训练其中第三个模块，直至三个模块均被训练。

...

【专利技术属性】
技术研发人员：龙翔，何栋梁，李甫，赵翔，林天威，孙昊，文石磊，丁二锐，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人