The embodiment of this application provides a video description method and device, a computer device and a storage medium, in which the video to be described is divided into N segments; the P-th text feature of the output of the preset network model is obtained, the N is an integer greater than or equal to 2, and the P is an integer greater than or equal to 1 and less than or equal to N; and the N segments and the P-th text feature are input into the network. The model obtains the first (P+1) text feature and outputs the first (P+1) text feature. Thus, by generating the next text feature according to the previous text feature, the redundancy of the text describing the video is greatly reduced, and the sentences in the text are more coherent and concise.
【技术实现步骤摘要】
一种视频描述方法及装置、计算机设备和存储介质
本申请实施例涉及神经网络领域,涉及但不限于一种视频描述方法及装置、计算机设备和存储介质。
技术介绍
目前,用文字来描述一段视频是计算机视觉的重要问题。由于视频内容一般比较复杂,一句话很难描述清楚,所以要清楚描述视频需要长段的文字描述。在相关技术中只考虑了弱化的问题,即用一句话来描述视频,这些方法不能将视频里的内容详细且连贯的呈现。因此,在生成描述视频的文字时,由于不能将描述的句子按照视频的播放时间与视频一一对应对应到,导致生成的句子与句子之间缺乏连贯性,或者存在冗余等问题。
技术实现思路
有鉴于此,本申请实施例提供一种视频描述方法及装置、计算机设备和存储介质。本申请实施例的技术方案是这样实现的:本申请实施例提供一种视频描述方法,所述方法包括:将待描述的视频分割为N个片段;获取预设的网络模型输出的第P个文本特征,所述N为大于等于2的整数,P为大于等于1且小于等于N的整数;将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征;输出所述第(P+1)个文本特征;其中,所述文本特征为所述N个片段中的关键片段对应的文本,且所述文本特征用于描述所述待描述的视频。在本实施例中,所述网络模型包括第一网络模型和第二网络模型,所述获取预设的网络模型输出的第P个文本特征,包括:获取所述第二网络模型输出的第P个文本特征;对应地,所述将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征,包括:将所述N个片段和所述第P个文本特征输入第一网络模型,得到所述N个片段中满足预设条件的第(P+1)个关 ...
【技术保护点】
1.一种视频描述方法,其特征在于,所述方法包括:将待描述的视频分割为N个片段;获取预设的网络模型输出的第P个文本特征,所述N为大于等于2的整数,P为大于等于1且小于等于N的整数;将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征;输出所述第(P+1)个文本特征;其中,所述文本特征为所述N个片段中的关键片段对应的文本,且所述文本特征用于描述所述待描述的视频。
【技术特征摘要】
1.一种视频描述方法,其特征在于,所述方法包括:将待描述的视频分割为N个片段;获取预设的网络模型输出的第P个文本特征,所述N为大于等于2的整数,P为大于等于1且小于等于N的整数;将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征;输出所述第(P+1)个文本特征;其中,所述文本特征为所述N个片段中的关键片段对应的文本,且所述文本特征用于描述所述待描述的视频。2.根据权利要求1所述的方法,其特征在于,所述网络模型包括第一网络模型和第二网络模型,所述获取预设的网络模型输出的第P个文本特征,包括:获取所述第二网络模型输出的第P个文本特征;对应地,所述将所述N个片段和所述第P个文本特征输入所述网络模型,得到第(P+1)个文本特征,包括:将所述N个片段和所述第P个文本特征输入第一网络模型,得到所述N个片段中满足预设条件的第(P+1)个关键片段;将所述第(P+1)个关键片段输入所述第二网络模型,得到第(P+1)个文本特征。3.根据权利要求2所述的方法,其特征在于,P=1时,获取第一个文本特征,包括:将所述N个片段输入第一网络模型,得到所述N个片段中满足预设条件的第一个关键片段;将所述第一个关键片段输入所述第二网络模型,得到第一个文本特征。4.根据权利要求2所述的方法,其特征在于,所述第一网络模型包括长短期记忆网络LSTM,且所述第一网络模型的输出为第二网络模型的输入;所述第二网络模型包括LSTM,且所述第二网络模型的输出作为所述第一网络模型的输入。5.根据权利要求1所述的方法,其特征在于,所述将获取的待描述的视频分割为N个片段,包括:获取待描述的视频;将所述待描述的视频沿播放时间,按照预设的时间阈值分割为N个片段;其中,所述N个片段包括相互重叠或不重叠的片段。6.根据权利要求3所述的方法,其特征在于,P=1时,所述将所述N个片段输入第一网络模型,得到所述N个片段中满足预设条件的第一个关键片段,包括:将所述N个片段中的第q个片段的视觉...
【专利技术属性】
技术研发人员:熊异雷,戴勃,林达华,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。