视频片段描述的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24498063 阅读:16 留言:0更新日期:2020-06-13 03:51
本申请公开了视频片段描述的生成方法、装置、电子设备及存储介质,涉及视频处理技术领域。具体实现方案为:采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段;本申请通过采用视频片段筛选模块可以对从待分析的视频中获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段;然后再采用视频片段描述模块对各视频片段进行描述,这样,可以避免对所有的视频提议片段进行描述,可以仅对筛选后的与视频的相关性较强的、适合描述的视频片段进行描述,去除不适合描述的视频片段的描述对视频描述的干扰,保证最终的视频片段描述的准确性,提高视频片段描述的质量。

Generation method, device, electronic equipment and storage medium of video clip description

【技术实现步骤摘要】
视频片段描述的生成方法、装置、电子设备及存储介质
本申请涉及计算机
,尤其涉及视频处理技术,具体涉及一种视频片段描述的生成方法、装置、电子设备及存储介质。
技术介绍
通常情况下,视频片段描述生成技术有很多重要应用,例如为视频检索提供依据,帮助视觉障碍人士观看视频,辅助智能弹幕生成等等。视频片段描述生成主要是通过分析、理解视频内的图像信息、运动信息、音频信息,给视频内的多个片段分别生成视频内容的文本描述。其中多个片段可为由算法预测出的适合生成描述的片段,也可以是人为指定好的特定片段。现有的视频片段描述生成一般分为两个独立的阶段,第一个阶段预测适合生成描述的视频内容片段,第二阶段针对每个片段分别生成描述。具体地,在第一个阶段中,使用人类标注好的每个视频对应的适合生成描述的片段,训练一个视频片段检测模型。该视频片段检测模型输入为整个视频,输出为多个视频片段的起点和终点。然后,在第二个阶段中,将视频按照人类标注好的视频片段进行切分,对每个视频片段标注视频的对应描述,训练一个视频片段描述生成模型。该视频片段描述生成模型输入为单个视频片段,输出为单个视频片段对应的描述。现有的视频片段描述生成过程中,对于视频片段检测模型检测到的所有视频片段,都由视频片段描述生成模型生成相应的描述。但是视频片段检测模型检测到的所有视频片段并不一定都是与当前视频的相关性比较强的、适合描述的片段,造成最终的视频片段描述不准确。
技术实现思路
为了解决上述技术问题,本申请提供一种视频片段描述的生成方法、装置、电子设备及存储介质,用于提高视频片段描述的准确性。一方面,本申请提供一种视频片段描述的生成方法,其特征在于,包括:采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段;采用所述视频描述模型中的视频片段描述模块对各视频片段进行描述。进一步可选地,如上所述的方法中,所述视频描述模型中的所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。进一步可选地,如上所述的方法中,采用视频描述模型中的视频片段筛选模块对预先获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段之前,所述方法还包括:采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段;或者获取通过人工方式从所述待分析的视频中提取的所述多个视频提议片段;进一步地,若所述视频描述模型中还包括所述视频片段提议模块,所述视频描述模型中的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。进一步可选地,如上所述的方法中,采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段,包括:提取所述待分析的视频中的各视频帧;采用预训练的第一子模型、第二子模型和第三子模型中的至少一种,分别提取各所述视频帧中的视频帧特征,得到对应的视频帧特征序列,共得到至少一个视频帧特征序列;对于各所述视频帧特征序列,采用预先训练的置信度统计模型,获取对应的片段置信度图,共得到至少一种片段置信度图;根据所述至少一种片段置信度图,获取所述待分析的视频中的多个视频提议片段。进一步可选地,如上所述的方法中,根据所述至少一种片段置信度图,获取所述待分析的视频中的多个视频提议片段,包括:若仅包括一种所述片段置信度图时,根据所述片段置信度图中各所述视频片段的置信度,获取置信度前topN个视频片段,作为对应的所述视频提议片段;若包括至少两种所述片段置信度图时,将所述至少两种片段置信度图中相同片段的置信度进行加权融合,得到融合后的各片段的置信度;根据融合各所述片段的置信度,获取置信度前topN个视频片段,作为对应的所述视频提议片段。进一步可选地,如上所述的方法中,采用所述视频描述模型中的视频片段筛选模块对所述多个视频提议片段进行筛选,获取适合描述的多个视频片段,包括:获取所述待分析的视频的特征;获取各所述视频提议片段的特征;采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征,从所述多个视频提议片段中筛选出适合描述的所述多个视频片段。进一步可选地,如上所述的方法中,采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征,从所述多个视频提议片段中筛选出适合描述的所述多个视频片段,包括:对于所述多个视频提议片段中的各所述视频提议片段,将所述视频提议片段的特征和所述待分析的视频的特征,输入至所述分类模型中,并获取所述分类模型输出的概率值;判断输出的所述概率值是否大于预设概率阈值;若是,确定所述视频提议片段为适合描述的视频片段,共得到适合描述的所述多个视频片段。另一方面,本专利技术还提供了一种视频描述模型的训练方法,包括:对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练;对经过预训练后的所述视频片段筛选模块和所述视频片段描述模块进行联合训练。进一步可选地,如上所述的方法中,若所述视频描述模型中还包括视频片段提议模块时,所述方法还包括:对所述视频描述模型中的视频片段提议模块独立进行预训练;对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练。进一步可选地,如上所述的方法中,对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练,包括:依次保持所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块中任意两个固定不变,使用强化学习的方法训练其中第三个模块,直至三个模块均被训练。再一方面,本申请还提供了一种视频片段描述的生成装置,包括:视频片段筛选模块,用于对从待分析的视频中获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段;视频片段描述模块,用于对各所述视频片段进行描述。又一方面,本申请还提供了一种视频描述模型的训练装置,包括:独立训练模块,用于对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练;联合训练模块,用于对经过预训练后得到的所述视频片段筛选模块和所述视频片段描述模块进行联合训练。再另一方面,本申请还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上任一项所述的方法。再又一方面,本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上任一项所述的方法。上述申请中的一个实施例具有如下优点或有益效果:通过采用视频片段筛选模块可以对从待分析的视频中获取到的多个视频本文档来自技高网...

【技术保护点】
1.一种视频片段描述的生成方法,其特征在于,包括:/n采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段;/n采用所述视频描述模型中的视频片段描述模块对各视频片段进行描述。/n

【技术特征摘要】
1.一种视频片段描述的生成方法,其特征在于,包括:
采用视频描述模型中的视频片段筛选模块对从待分析的视频中获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段;
采用所述视频描述模型中的视频片段描述模块对各视频片段进行描述。


2.根据权利要求1所述的方法,其特征在于,所述视频描述模型中的所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。


3.根据权利要求2所述的方法,其特征在于,采用视频描述模型中的视频片段筛选模块对预先获取到的多个视频提议片段进行筛选,获取适合描述的多个视频片段之前,所述方法还包括:
采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段;或者
获取通过人工方式从所述待分析的视频中提取的所述多个视频提议片段;
进一步地,若所述视频描述模型中还包括所述视频片段提议模块,所述视频描述模型中的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块经过联合训练得到。


4.根据权利要求3所述的方法,其特征在于,采用预训练的所述视频描述模型中的视频片段提议模块从所述待分析的视频中提取所述多个视频提议片段,包括:
提取所述待分析的视频中的各视频帧;
采用预训练的第一子模型、第二子模型和第三子模型中的至少一种,分别提取各所述视频帧中的视频帧特征,得到对应的视频帧特征序列,共得到至少一个视频帧特征序列;
对于各所述视频帧特征序列,采用预先训练的置信度统计模型,获取对应的片段置信度图,共得到至少一种片段置信度图;
根据所述至少一种片段置信度图,获取所述待分析的视频中的多个视频提议片段。


5.根据权利要求4所述的方法,其特征在于,根据所述至少一种片段置信度图,获取所述待分析的视频中的多个视频提议片段,包括:
若仅包括一种所述片段置信度图时,根据所述片段置信度图中各所述视频片段的置信度,获取置信度前topN个视频片段,作为对应的所述视频提议片段;
若包括至少两种所述片段置信度图时,将所述至少两种片段置信度图中相同片段的置信度进行加权融合,得到融合后的各片段的置信度;根据融合各所述片段的置信度,获取置信度前topN个视频片段,作为对应的所述视频提议片段。


6.根据权利要求4所述的方法,其特征在于,采用所述视频描述模型中的视频片段筛选模块对所述多个视频提议片段进行筛选,获取适合描述的多个视频片段,包括:
获取所述待分析的视频的特征;
获取各所述视频提议片段的特征;
采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征,从所述多个视频提议片段中筛选出适合描述的所述多个视频片段。


7.根据权利要求6所述的方法,其特征在于,采用预先训练的分类模型、所述待分析的视频的特征以及各所述视频提议片段的特征,从所述多个视频提议片段中筛选出适合描述的所述多个视频片段,包括:
对于所述多个视频提议片段中的各所述视频提议片段,将所述视频提议片段的特征和所述待分析的视频的特征,输入至所述分类模型中,并获取所述分类模型输出的概率值;
判断输出的所述概率值是否大于预设概率阈值;
若是,确定所述视频提议片段为适合描述的视频片段,共得到适合描述的所述多个视频片段。


8.一种视频描述模型的训练方法,其特征在于,包括:
对视频描述模型中的视频片段筛选模块和视频片段描述模块各自独立进行预训练;
对经过预训练后的所述视频片段筛选模块和所述视频片段描述模块进行联合训练。


9.根据权利要求8所述的方法,其特征在于,若所述视频描述模型中还包括视频片段提议模块时,所述方法还包括:
对所述视频描述模型中的视频片段提议模块独立进行预训练;
对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练。


10.根据权利要求9所述的方法,其特征在于,对经过预训练后的所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块进行联合训练,包括:
依次保持所述视频片段提议模块、所述视频片段筛选模块和所述视频片段描述模块中任意两个固定不变,使用强化学习的方法训练其中第三个模块,直至三个模块均被训练。


...

【专利技术属性】
技术研发人员:龙翔何栋梁李甫赵翔林天威孙昊文石磊丁二锐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1