一种视频描述方法及装置、计算机设备和存储介质制造方法及图纸

技术编号:20075182 阅读:30 留言:0更新日期:2019-01-15 00:40
本申请实施例提供一种视频描述方法及装置、计算机设备和存储介质,其中,将待描述的视频分割为N个片段;获取预设的网络模型输出的第P个文本特征,所述N为大于等于2的整数,P为大于等于1且小于等于N的整数;将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征;输出所述第(P+1)个文本特征;如此,通过根据前一个文本特征生成下一个文本特征,大大减少了描述视频的文本的冗余,使得文本中的语句更加连贯且简洁。

A Video Description Method and Device, Computer Equipment and Storage Media

The embodiment of this application provides a video description method and device, a computer device and a storage medium, in which the video to be described is divided into N segments; the P-th text feature of the output of the preset network model is obtained, the N is an integer greater than or equal to 2, and the P is an integer greater than or equal to 1 and less than or equal to N; and the N segments and the P-th text feature are input into the network. The model obtains the first (P+1) text feature and outputs the first (P+1) text feature. Thus, by generating the next text feature according to the previous text feature, the redundancy of the text describing the video is greatly reduced, and the sentences in the text are more coherent and concise.

【技术实现步骤摘要】
一种视频描述方法及装置、计算机设备和存储介质
本申请实施例涉及神经网络领域,涉及但不限于一种视频描述方法及装置、计算机设备和存储介质。
技术介绍
目前,用文字来描述一段视频是计算机视觉的重要问题。由于视频内容一般比较复杂,一句话很难描述清楚,所以要清楚描述视频需要长段的文字描述。在相关技术中只考虑了弱化的问题,即用一句话来描述视频,这些方法不能将视频里的内容详细且连贯的呈现。因此,在生成描述视频的文字时,由于不能将描述的句子按照视频的播放时间与视频一一对应对应到,导致生成的句子与句子之间缺乏连贯性,或者存在冗余等问题。
技术实现思路
有鉴于此,本申请实施例提供一种视频描述方法及装置、计算机设备和存储介质。本申请实施例的技术方案是这样实现的:本申请实施例提供一种视频描述方法,所述方法包括:将待描述的视频分割为N个片段;获取预设的网络模型输出的第P个文本特征,所述N为大于等于2的整数,P为大于等于1且小于等于N的整数;将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征;输出所述第(P+1)个文本特征;其中,所述文本特征为所述N个片段中的关键片段对应的文本,且所述文本特征用于描述所述待描述的视频。在本实施例中,所述网络模型包括第一网络模型和第二网络模型,所述获取预设的网络模型输出的第P个文本特征,包括:获取所述第二网络模型输出的第P个文本特征;对应地,所述将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征,包括:将所述N个片段和所述第P个文本特征输入第一网络模型,得到所述N个片段中满足预设条件的第(P+1)个关键片段;将所述第(P+1)个关键片段输入所述第二网络模型,得到第(P+1)个文本特征。在本实施例中,P=1时,获取第一个文本特征,包括:将所述N个片段输入第一网络模型,得到所述N个片段中满足预设条件的第一个关键片段;将所述第一个关键片段输入所述第二网络模型,得到第一个文本特征。在本实施例中,所述第一网络模型包括长短期记忆网络LSTM,且所述第一网络模型的输出为第二网络模型的输入;所述第二网络模型包括LSTM,且所述第二网络模型的输出作为所述第一网络模型的输入。在本实施例中,所述将获取的待描述的视频分割为N个片段,包括:获取待描述的视频;将所述待描述的视频沿播放时间,按照预设的时间阈值分割为N个片段;其中,所述N个片段包括相互重叠或不重叠的片段。在本实施例中,P=1时,所述将所述N个片段输入第一网络模型,得到所述N个片段中满足预设条件的第一个关键片段,包括:将所述N个片段中的第q个片段的视觉特征和所述第q个片段所占时长输入所述第一网络模型,得到所述第q个片段对应的内在特征;其中,q为大于等于1且小于等于N的整数;所述第一网络模型中包括初始化矩阵;根据所述第q个片段对应的内在特征,确定满足预设条件的第一个关键片段。在本实施例中,所述将所述N个片段和第二网络模型输出的第P个文本特征输入第一网络模型,得到所述N个片段中满足预设条件的第(P+1)个关键片段,包括:将所述N个片段中的第n个片段的视觉特征、所述第n个片段所占时长和所述第P个文本特征输入所述第一网络模型,根据所述第一网络模型中的第(n-1)个片段对应的内在特征,得到所述第n个片段对应的内在特征;其中,n为大于等于2,小于N的整数;所述第n个片段为所述N个片段中的任一片段;所述视觉特征为所述关键片段呈现的画面的特征;根据所述第n个片段对应的内在特征,确定满足预设条件的第(P+1)个关键片段。在本实施例中,将所述第(P+1)个关键片段输入所述第二网络模型,得到第(P+1)个文本特征,包括:将所述第(P+1)个关键片段中的第j个子段的视觉特征输入第二网络模型,根据所述第二网络模型中的第P个关键片段对应的文本特征和所述第P个关键片段的内在特征,得到所述第j个子段的内在特征;其中,所述第j个子段是所述第(P+1)个关键片段中的一部分,j为大于等于2的整数;根据预设的损失函数和所述第j个子段的内在特征,确定所述第(P+1)个关键片段对应的第(P+1)个文本特征。在本实施例中,在所述根据预设的损失函数和所述第(P+1)个关键片的内在特征,得到所述第(P+1)个关键片段对应的第(P+1)个文本特征之后,所述方法还包括:将所述第(P+1)个文本特征输入到所述第一网络模型。在本实施例中,所述输出所述第(P+1)个文本特征,包括:当所述(P+1)小于N时,从所述第二网络模型输出第(P+1)个文本特征,并将所述第(P+1)个文本特征输入到所述第一网络模型;当所述(P+1)等于N时,输出所述第(P+1)个文本特征。在本实施例中,所述第一网络模型的训练过程,包括:获取样本视频和预设的已标注事件;其中,所述预设的已标注事件为所述样本视频对应的已知文本的视频;将所述样本视频分割为N个片段;将所述N个片段中与所述已标注事件的匹配度大于等于预设阈值的片段,确定为所述样本视频的关键片段;根据所述关键片段和所述预设的已标注事件,得到训练好的所述第一网络模型。在本实施例中,所述将所述N个片段中与所述已标注事件的匹配度大于等于预设阈值的片段,确定为所述样本视频的关键片段,还包括:将所述样本视频中的关键片段按照所述样本视频的播放时间顺序输入所述第二网络模型,并得到所述第二网络模型返回的所述关键片段对应的文本特征;根据所述关键片段对应的文本特征和所述样本视频中N个片段对应的已标注事件,确定所述样本视频中的关键片段。在本实施例中,所述第二网络模型的训练过程,包括:确定所述第一网络模型输入的所述样本视频的第m个关键片段对应的视觉特征;根据所述第m个关键片段对应的视觉特征、所述第(m-1)个关键片段对应的内在特征和所述第(m-1)个关键片段对应的已标注事件的文本特征,生成所述第m个关键片段对应的第m个文本特征;其中,m为大于等于2,且小于等于N的整数;根据所述样本视频中的关键片段对应的文本特征和所述关键片段对应的已标注事件,得到训练好的所述第二网络模型的训练。在本实施例中,所述根据所述样本视频中的所有关键片段的文本特征和所述关键片段对应的已标注事件,得到训练好的所述第二网络模型,包括:采用自批判序列和预设的已标注事件对应的样本语句,对所述关键片段对应的文本特征中的语句进行调整,得到已调整语句的文本特征;采用自批判序列和预设的已标注事件对应的样本段落,对所述已调整语句的文本特征对应的段落进行调整,得到调整的文本特征;根据所述调整的文本特征,对所述第二网络模型进行调整,得到所述训练好的所述第二网络模型。在本实施例中,在训练所述第二网络模型和所述第一网络模型时,所述第一网络模型的输出作为所述第二网路模型的输入,且所述第二网络模型的输出作为所述第二网络模型的输入,包括:将所述第m个文本特征输入所述第一网络模型,得到所述样本视频中的第(m+1)个关键片段;将所述(m+1)个关键片段输入所述第二网络模型中,生成所述第(m+1)个关键片段对应的第(m+1)个文本特征;依此循环,从所述第一网络模型中输出所述样本视频的关键片段,从所述第二网络模型中输出所述关键片段对应的文本特征。本实施例一种视频描述装置,所述装置包括:第一分割模块、第一获取模块、第一输入模本文档来自技高网...

【技术保护点】
1.一种视频描述方法,其特征在于,所述方法包括:将待描述的视频分割为N个片段;获取预设的网络模型输出的第P个文本特征,所述N为大于等于2的整数,P为大于等于1且小于等于N的整数;将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征;输出所述第(P+1)个文本特征;其中,所述文本特征为所述N个片段中的关键片段对应的文本,且所述文本特征用于描述所述待描述的视频。

【技术特征摘要】
1.一种视频描述方法,其特征在于,所述方法包括:将待描述的视频分割为N个片段;获取预设的网络模型输出的第P个文本特征,所述N为大于等于2的整数,P为大于等于1且小于等于N的整数;将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征;输出所述第(P+1)个文本特征;其中,所述文本特征为所述N个片段中的关键片段对应的文本,且所述文本特征用于描述所述待描述的视频。2.根据权利要求1所述的方法,其特征在于,所述网络模型包括第一网络模型和第二网络模型,所述获取预设的网络模型输出的第P个文本特征,包括:获取所述第二网络模型输出的第P个文本特征;对应地,所述将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征,包括:将所述N个片段和所述第P个文本特征输入第一网络模型,得到所述N个片段中满足预设条件的第(P+1)个关键片段;将所述第(P+1)个关键片段输入所述第二网络模型,得到第(P+1)个文本特征。3.根据权利要求2所述的方法,其特征在于,P=1时,获取第一个文本特征,包括:将所述N个片段输入第一网络模型,得到所述N个片段中满足预设条件的第一个关键片段;将所述第一个关键片段输入所述第二网络模型,得到第一个文本特征。4.根据权利要求2所述的方法,其特征在于,所述第一网络模型包括长短期记忆网络LSTM,且所述第一网络模型的输出为第二网络模型的输入;所述第二网络模型包括LSTM,且所述第二网络模型的输出作为所述第一网络模型的输入。5.根据权利要求1所述的方法,其特征在于,所述将获取的待描述的视频分割为N个片段,包括:获取待描述的视频;将所述待描述的视频沿播放时间,按照预设的时间阈值分割为N个片段;其中,所述N个片段包括相互重叠或不重叠的片段。6.根据权利要求3所述的方法,其特征在于,P=1时,所述将所述N个片段输入第一网络模型,得到所述N个片段中满足预设条件的第一个关键片段,包括:将所述N个片段中的第q个片段的视觉...

【专利技术属性】
技术研发人员:熊异雷戴勃林达华
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利