一种视频摘要生成方法、装置、设备及介质制造方法及图纸

技术编号:34280111 阅读:53 留言:0更新日期:2022-07-24 18:07
本申请提供了一种视频摘要生成方法、装置、设备及介质,该方法包括:电子设备从目标视频中提取目标视频的内容特征,以及从目标视频的辅助文本中提取目标视频的文本特征,然后确定内容特征和文本特征的相似度,根据相似度从目标视频中确定目标片段,根据目标片段生成目标视频的视频摘要。由此提供了一种能够避免主观性的准确高效的视频摘要生成方法。观性的准确高效的视频摘要生成方法。观性的准确高效的视频摘要生成方法。

A video summarization generation method, device, device and medium

【技术实现步骤摘要】
一种视频摘要生成方法、装置、设备及介质


[0001]本申请涉及视频处理
,尤其涉及一种视频摘要生成方法、装置、设备以及计算机可读存储介质、计算机程序产品。

技术介绍

[0002]视频摘要是指对于长视频中视频内容的简单概要,用户通过观看视频摘要可以获取长视频中的主要内容。视频摘要可以帮助用户在大量的视频中集中高效地浏览视频内容,获取到用户感兴趣的内容。
[0003]通常情况下,视频摘要生成技术通过人工标注视频中的关键帧作为视频摘要,这种方法仅考虑视频的图像特征,并且人工标注的主观性较强,难以满足用户通过视频摘要获取视频信息的需求。
[0004]因此,亟需一种准确高效的视频摘要生成方法。

技术实现思路

[0005]本公开的目的在于:提供了一种视频摘要生成方法、装置、设备、计算机可读存储介质以及计算机程序产品,能够提供一种准确高效的视频摘要生成方法。
[0006]第一方面,本公开提供视频摘要生成方法,所述方法包括:
[0007]从目标视频中提取所述目标视频的内容特征,以及从所述目标视频的辅助文本中提取所述目标视频的文本特征;
[0008]确定所述内容特征和所述文本特征的相似度,根据所述相似度从所述目标视频中确定目标片段;
[0009]根据所述目标片段生成所述目标视频的视频摘要。
[0010]第二方面,本公开提供了一种视频摘要生成装置,所述装置包括:
[0011]提取模块,用于从目标视频中提取所述目标视频的内容特征,以及从所述目标视频的辅助文本中提取所述目标视频的文本特征;
[0012]确定模块,用于确定所述内容特征和所述文本特征的相似度,根据所述相似度从所述目标视频中确定目标片段;
[0013]生成模块,用于根据所述目标片段生成所述目标视频的视频摘要。
[0014]第三方面,本公开提供一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
[0015]第四方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
[0016]第五方面,本公开提供了一种包含指令的计算机程序产品,当其在设备上运行时,使得设备执行上述第一方面所述方法的步骤。
[0017]从以上技术方案可以看出,本公开至少具有如下优点:
[0018]电子设备从目标视频中提取目标视频的内容特征,以及从目标视频的辅助文本中提取目标视频的文本特征,然后确定内容特征和文本特征的相似度,根据相似度从目标视频中确定目标片段,根据目标片段生成目标视频的视频摘要。
[0019]其中,目标视频的辅助文本特征是由上传目标视频的用户所确定的,因此目标视频的辅助文本中包括该目标视频的文字版摘要,因此可以根据内容特征和文本特征的相似度,从目标视频中确定出与文字版摘要相似度高的视频片段作为目标视频的视频摘要。由于视频摘要与上传用户所确定的辅助文本相似度较高,因此可以避免人工标注的主观性,并且可以通过内容特征和文本特征的相似度自动计算获得,从而提高了目标视频的视频摘要的生成效率。
[0020]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0021]为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
[0022]图1为本申请实施例提供的一种视频摘要生成方法的流程图;
[0023]图2为本申请实施例提供的一种从目标视频中提取特征的示意图;
[0024]图3为本申请实施例提供的一种通过相似度评估模型获取相似度的示意图;
[0025]图4为本申请实施例提供的一种从多个视频片段中确定目标片段的示意图;
[0026]图5为本公开实施例提供的一种文本对齐语音装置的结构示意图;
[0027]图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0028]本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
[0029]首先对本申请实施例中所涉及到的一些技术术语进行介绍。
[0030]视频是一种携带丰富信息的媒体资源。视频可以被视频播放器播放,以向用户呈现动态影像。其中,动态影像包括连续的图像和音频。针对电视剧、电影、新闻等视频,视频被播放时所呈现的图像中可以包括文本。该文本例如可以是字幕、赞助商名称、视频制作者名称、背景文字等。上述视频被播放时所呈现的音频中可以包括语音和背景音(如主题曲、插曲等)。
[0031]视频摘要是指对于长视频中视频内容的简单概要,用户通过观看视频摘要可以获取长视频中的主要内容。视频摘要可以帮助用户在大量的视频中集中高效地浏览视频内容,获取到用户感兴趣的内容。
[0032]通常情况下,可以将视频摘要生成技术作为判断视频片段(或者视频帧)是否为视频摘要的分类问题,通过判断视频中的每一个视频片段(或者视频帧)是否为视频摘要确定目标视频的摘要。
[0033]具体地,可以通过监督学习的方式对于该分类问题进行学习,从而实现对于视频摘要的判断。训练数据包括人工标注的视频中的关键视频片段(或者关键视频帧)作为真实
摘要。但是,人工标注数据的方法主观性较强,不同标注员标注的结果并不一定完全相同。并且,视频中包括图像和音频,该方法仅考虑视频的图像,可能导致音频中的重要内容被忽略,影响视频摘要生成的准确度。
[0034]有鉴于此,本申请提供了一种视频摘要生成方法,该方法应用于电子设备。电子设备是指具有数据处理能力的设备,例如可以是服务器,或者是终端。其中,终端包括但不限于智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,PDA)或者智能穿戴设备等。服务器可以是云服务器,例如是中心计算集群中的中心服务器,或者是边缘计算集群中的边缘服务器。当然,服务器也可以是本地数据中心中的服务器。本地数据中心是指用户直接控制的数据中心。
[0035]具体地,电子设备从目标视频中提取目标视频的内容特征,以及从目标视频的辅助文本中提取目标视频的文本特征,然后确定内容特征和文本特征的相似度,根据相似度从目标视频中确定目标片段,根据目标片段生成目标视频的视频摘要。
[0036]其中,目标视频的辅助文本是目标视频的上传用户在上传视频时确定的,目标视频的辅助文本中包括该目标视频的文字版摘要,因此从辅助文本中提取获得的文本特征,然后根据文本特征与内容特征的相似度所确定出的目标片段与文字版摘要的相似度较高,因此可以作为该目标视频的视频摘要,该视频摘要能够准确概括目标视频的主要内容,避免人工标注所确定的摘要主观性较强的问题。
[0037]为了使得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频摘要生成方法,其特征在于,所述方法包括:从目标视频中提取所述目标视频的内容特征,以及从所述目标视频的辅助文本中提取所述目标视频的文本特征;确定所述内容特征和所述文本特征的相似度,根据所述相似度从所述目标视频中确定目标片段;根据所述目标片段生成所述目标视频的视频摘要。2.根据权利要求1所述的方法,其特征在于,所述内容特征包括图像特征、图像语义特征和语音语义特征,所述图像特征包括从所述目标视频的图像中提取获得的特征,所述图像语义特征包括从所述目标视频的图像中的文字提取获得的特征,所述语音语义特征包括从所述目标视频的音频中提取获得的特征。3.根据权利要求1所述的方法,其特征在于,所述内容特征包括图像特征;所述从目标视频中提取所述目标视频的内容特征,包括:从目标视频的图像中提取所述目标视频的图像特征。4.根据权利要求1所述的方法,其特征在于,所述内容特征包括图像语义特征;所述从目标视频中提取所述目标视频的内容特征,包括:对所述目标视频的图像进行光学字符识别,获得所述目标视频的图像文本;从所述图像文本中提取所述目标视频的图像语义特征。5.根据权利要求1所述的方法,其特征在于,所述内容特征包括语音语义特征;所述从目标视频中提取所述目标视频的内容特征,包括:对所述目标视频的音频进行自动语音识别,获得所述目标视频的语音文本;从所述语音文本中提取所述目标视频的语音语义特征。6.根据权利要求1所述的方法,其特征在于,所述确定所述内容特征和所述文本特征的相似度,包括:将所述内容特...

【专利技术属性】
技术研发人员:杜臣周文
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1