【技术实现步骤摘要】
一种视频摘要提取方法及系统
[0001]本专利技术涉及数据摘要提取
,特别是涉及一种视频摘要提取方法及系统。
技术介绍
[0002]语音转文本技术和自动文本摘要技术都经过了长足的发展,有了广泛的应用。语音识别技术从模板匹配识别单个词到隐马科夫模型识别语音片段,再到神经网络端到端的识别语音片段,技术不断进步,已经被应用于语音助手、智能家居、自动驾驶等诸多领域。自动文本摘要从利用关键词从文本中提取出关键句的抽取式摘要,到使用神经网络提取文本特征,根据文本内容生成新的摘要,文本摘要的技术也在不断进步。目前已经被用于信息检索、图书自动标记索引、新闻信息服务等领域。
[0003]尽管语音转文本技术和文本摘要技术已经比较成熟,但两种技术都只被广泛应用于各自的领域。随着5G技术的发展,网络传输的容量和速度有了新的发展,视频成为网络中的主要多媒体内容。海量视频的涌现,使得如何快速选取合适的视频进行观看成为一个新的需求。
[0004]现有基于文本的视频摘要技术,主要是使用动态时序匹配算法匹配字幕和剧本,然后通过对剧本的分 ...
【技术保护点】
【技术特征摘要】
1.一种视频摘要提取方法,其特征在于,所述方法,包括:获取待提取视频;提取所述待提取视频的音频文件,并将所述待提取视频划分为多张待提取视频帧;每张待提取视频帧均对应一个视频帧时间戳;所述视频帧时间戳用于描述对应待提取视频帧在所述待提取视频中的开始时间、结束时间和持续时长;将所述音频文件输入到语音转文本模型中,得到待提取视频的时序文本文件;所述语音转文本模型是利用音频文件训练集,对第一深度神经网络进行训练得到的;所述时序文本文件中每一句文本均对应一个文本时间戳;所述文本时间戳用于描述对应句子在所述待提取视频中的开始时间、结束时间和持续时长;根据所述时序文本文件确定非时序文本文件和文本时间戳
‑
文本映射关系;将所述非时序文本文件输入到文本摘要提取模型中,得到所述待提取视频的文本摘要;所述文本摘要提取模型是利用文本文件训练集,对第二深度神经网络进行训练得到的;根据物体识别模型和多张所述待提取视频帧,确定所述待提取视频的图片摘要;所述物体识别模型是利用视频帧训练集,对第三深度神经网络进行训练得到的;根据所述文本摘要、所述图片摘要和所述文本时间戳
‑
文本映射关系,确定所述待提取视频的视频摘要。2.根据权利要求1所述的视频摘要提取方法,其特征在于,在所述获取待提取视频之前,还包括:获取音频文件训练集;所述音频文件训练集包括多个历史音频文件及多个历史音频文件对应的历史文本文件;以所述历史音频文件为输入,以历史音频文件对应的历史文本文件为输出,对第一深度神经网络进行训练,得到语音转文本模型。3.根据权利要求1所述的视频摘要提取方法,其特征在于,在所述获取待提取视频之前,还包括:获取文本文件训练集;所述文本文件训练集包括历史文本文件和历史文本文件对应的文本摘要;以所述历史文本文件为输入,以历史文本文件对应的文本摘要为输出,对第二深度神经网络进行训练,得到文本摘要提取模型。4.根据权利要求1所述的视频摘要提取方法,其特征在于,在所述获取待提取视频之前,还包括:获取视频帧训练集;所述视频帧训练集利用矩形标注框对所述视频帧训练集中的物体进行标注,得到多张标注视频帧;以多张所述标注视频帧为输入,以所述矩形标注框为输出,对第三深度神经网络进行训练,得到物体识别模型。5.根据权利要求1所述的视频摘要提取方法,其特征在于,所述根据物体识别模型和多张所述待提取视频帧,确定所述待提取视频的图片摘要,具体包括:将多张所述待提取视频帧输入到物体识别模型,得到多张标注待提取视频帧;确定任一张标注待提取视频帧为当前标注待提取视频帧;根据所述当前标注待提取视频帧包含的物体及种类,利用公式
确定当前标注待提取视频帧中每个物体的物体权重;其中,W
i
为标注待提取视频帧中第i个物体的物体权重;W
cls
为物体的类别权重;其中N为标注待提取视频帧的总量,N
cls
为含有类别为cls的物体的标注待提取视频帧的总量;x
i
,y
i
表示矩形标注框中心点的坐标,w
i
,h
i
分别为矩形标注框的宽和高,W,H分别为标注待提取视频帧的宽和高;根据标注待提取视频帧中每个物体的物体权重,利用公式W
img
=α
×
W
i1
+β
×
W
i2
确定当前标注待提取视频帧的图片权重;其中W
img
表示当前标注待提取视频帧的图片权重;W
i1
,W
i2<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。