System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法、视频文案检索方法、装置及电子设备制造方法及图纸_技高网

模型训练方法、视频文案检索方法、装置及电子设备制造方法及图纸

技术编号:40746255 阅读:2 留言:0更新日期:2024-03-25 20:04
本发明专利技术实施例提供了一种模型训练方法、视频文案检索方法、装置及电子设备,所述方法包括:获取第一样本视频及其对应的样本文案,将第一样本视频的视频帧及样本文案输入模型中,提取第一样本视频中各视频帧的样本视频特征,对样本文案进行分句和分词处理,得到样本文案中包含的各分词;分别对各样本视频特征进行编码得到第一视频特征向量,以及对各分词进行编码得到第一文本特征向量;基于各第一视频特征向量和各第一文本特征向量,将各视频帧分别与各分词进行匹配以从样本文案中确定出与第一样本视频匹配的第一文本;计算模型的第一对比损失并调整模型的参数,得到训练好的模型。应用本发明专利技术技术方案,实现了对视频对应的内容概括文案的检索。

【技术实现步骤摘要】

本专利技术涉及多媒体处理,特别是涉及一种模型训练方法、视频文案检索方法、装置及电子设备


技术介绍

1、随着科技的发展,互联网应用技术发展迅速,人们可以通过互联网应用进行各种各样的交互活动。比如,用户可以通过互联网应用平台针对某一描述信息搜索对应的视频等。

2、相关技术中,用户主要通过关键词检索的方式搜索想要观看的内容,具体的,用户向电子设备的搜索引擎输入查询关键词,电子设备的搜索引擎接收查询关键词,并对该查询关键词进行检索以得到检索结果,然后向用户反馈检索结果。然而,在一些场景中,用户在一互联网应用平台看到某一电视或电影剧集中的一个片段后,有需要了解该片段对应的内容概括文本的需求,而现有通过关键词检索的方式搜索想要观看的内容,是通过关键词对视频的检索,无法应用于需要了解视频片段对应的内容概括文本的场景中。

3、因此,如何对视频片段对应的内容概括文本进行检索成为了亟待解决的问题。


技术实现思路

1、本专利技术实施例的目的在于提供一种模型训练方法、视频文案检索方法、装置及电子设备,以实现对视频对应的内容概括文案的检索。具体技术方案如下:

2、在本专利技术实施的第一方面,首先提供了一种模型训练方法,所述方法包括:

3、获取第一样本视频以及所述第一样本视频对应的样本文案;

4、将所述第一样本视频的视频帧以及所述样本文案输入模型中,针对所述第一样本视频中各视频帧,提取该视频帧的样本视频特征;

5、对所述样本文案进行分句处理,得到所述样本文案的句子,并对所述样本文案的句子进行分词处理,得到所述样本文案中包含的各分词;

6、分别对所述第一样本视频中各视频帧的样本视频特征进行编码得到对应的第一视频特征向量,以及分别对所述样本文案中包含的各分词进行编码得到对应的第一文本特征向量;

7、基于各所述第一视频特征向量以及各所述第一文本特征向量,将所述第一样本视频中的各视频帧分别与所述样本文案中的各分词进行匹配,从所述样本文案中确定出与所述第一样本视频匹配的第一文本;

8、基于所述第一样本视频与所述第一文本的相似度,以及所述第一样本视频与所述样本文案中除所述第一文本之外文本的相似度,计算所述模型的第一对比损失,并根据所述第一对比损失调整所述模型的参数,得到训练好的模型。

9、在一种可能的实施方式中,所述样本文案为非标注样本文案;所述方法还包括:

10、获取第二样本视频以及所述第二样本视频对应的标注样本文案,所述标注样本文案包含所述第二样本视频的真值内容概括文案;

11、将所述第二样本视频的视频帧以及所述标注样本文案输入所述训练好的模型中,针对所述第二样本视频中各视频帧,提取该视频帧的样本视频特征;

12、对所述标注样本文案进行分句处理,得到所述标注样本文案的句子,并对所述标注样本文案的句子进行分词处理,得到所述标注样本文案中包含的各分词;

13、分别对所述第二样本视频中各视频帧的样本视频特征进行编码得到对应的第二视频特征向量,以及分别对所述标注样本文案中包含的各分词进行编码得到对应的第二文本特征向量;

14、基于各所述第二视频特征向量以及各所述第二文本特征向量,将所述第二样本视频中的各视频帧分别与所述标注样本文案中的各分词进行匹配,从所述标注样本文案中确定出与所述第二样本视频匹配的第二文本;

15、基于所述第二样本视频与所述第二文本的相似度,以及所述第二样本视频与所述标注样本文案中除所述第二文本之外文本的相似度,计算所述训练好的模型的第二对比损失,并根据所述第二对比损失调整所述训练好的模型的参数,得到目标模型。

16、在一种可能的实施方式中,所述基于各所述第一视频特征向量以及各所述第一文本特征向量,将所述第一样本视频中的各视频帧分别与所述样本文案中的各分词进行匹配,从所述样本文案中确定出与所述第一样本视频匹配的第一文本,包括:

17、基于各所述第一视频特征向量以及各所述第一文本特征向量,计算所述第一样本视频中各视频帧分别与所述样本文案中各分词的相似度值;

18、基于所述第一样本视频中各视频帧分别与所述样本文案中各分词的相似度值,从所述样本文案中确定出与所述第一样本视频匹配的第一文本。

19、在一种可能的实施方式中,所述基于所述第一样本视频中各视频帧分别与所述样本文案中各分词的相似度值,从所述样本文案中确定出与所述第一样本视频匹配的第一文本,包括:

20、针对所述样本文案中的每个分词,将与该分词相似度最高的视频帧确定为该分词对应的目标视频帧,并将该分词与该分词对应的目标视频帧之间的相似度值作为该分词和所述第一样本视频的相似度值;

21、针对所述样本文案中的每个句子,将该句子中包含的与所述第一样本视频相似度最高的分词,确定为该句子对应的目标分词,并将该目标分词与所述第一样本视频之间的相似度值确定为该句子与所述第一样本视频的目标相似度值;

22、将目标相似度值大于预设阈值的句子,确定为所述样本文案中与所述第一样本视频匹配的第一文本。

23、在一种可能的实施方式中,所述非标注样本文案包括:非标注内容概括文案和第一样本台词文本中的至少一项,所述标注样本文案包括:标注内容概括文案和第二样本台词文本中的至少一项;所述第一样本台词文本为所述第一样本视频对应的台词文本,所述第二样本台词文本为所述第二样本视频对应的台词文本。

24、在一种可能的实施方式中,所述样本视频特征包括:视频帧中的场景信息、人物信息、物体信息以及行为信息中的至少一项。

25、在本专利技术实施的第二方面,还提供了一种视频文案检索方法,所述方法包括:

26、获取目标视频片段以及包含所述目标视频片段的内容的目标内容概括文本;

27、将所述目标视频片段的视频帧以及所述目标内容概括文本输入预先训练好的模型中,针对所述目标视频片段中各视频帧,提取该视频帧的目标视频特征;

28、对所述目标内容概括文本进行分句处理,得到所述目标内容概括文本的句子,并对所述目标内容概括文本的句子进行分词处理,得到所述目标内容概括文本中包含的各分词;

29、分别对所述目标视频片段中各视频帧的目标视频特征进行编码得到对应的目标视频特征向量,以及分别对所述目标内容概括文本中包含的各分词进行编码得到对应的目标文本特征向量;

30、基于各所述目标视频特征向量以及各所述目标文本特征向量,将所述目标视频片段中的各视频帧分别与所述目标内容概括文本中的各分词进行匹配,从所述目标内容概括文本中确定出与所述目标视频片段匹配的目标文本;

31、其中,所述预先训练好的模型为采用上述第一方面所述的方法训练得到的。

32、在一种可能的实施方式中,所述目标内容概括文本包括:包含所述目标视频片段的内容的内容概括文本和目标台词文本中的至少一项,所述目标台词文本为包含所述目标视本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述样本文案为非标注样本文案;所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于各所述第一视频特征向量以及各所述第一文本特征向量,将所述第一样本视频中的各视频帧分别与所述样本文案中的各分词进行匹配,从所述样本文案中确定出与所述第一样本视频匹配的第一文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述第一样本视频中各视频帧分别与所述样本文案中各分词的相似度值,从所述样本文案中确定出与所述第一样本视频匹配的第一文本,包括:

5.根据权利要求2-4任一所述的方法,其特征在于,所述非标注样本文案包括:非标注内容概括文案和第一样本台词文本中的至少一项,所述标注样本文案包括:标注内容概括文案和第二样本台词文本中的至少一项;所述第一样本台词文本为所述第一样本视频对应的台词文本,所述第二样本台词文本为所述第二样本视频对应的台词文本。

6.根据权利要求1-4任一所述的方法,其特征在于,所述样本视频特征包括:视频帧中的场景信息、人物信息、物体信息以及行为信息中的至少一项。

7.一种视频文案检索方法,其特征在于,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述目标内容概括文本包括:包含所述目标视频片段的内容的内容概括文本和目标台词文本中的至少一项,所述目标台词文本为包含所述目标视频片段的内容的台词文本。

9.根据权利要求7所述的方法,其特征在于,所述目标视频特征包括:视频帧中的场景信息、人物信息、物体信息以及行为信息中的至少一项。

10.一种模型训练装置,其特征在于,所述装置包括:

11.一种视频文案检索装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述样本文案为非标注样本文案;所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于各所述第一视频特征向量以及各所述第一文本特征向量,将所述第一样本视频中的各视频帧分别与所述样本文案中的各分词进行匹配,从所述样本文案中确定出与所述第一样本视频匹配的第一文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述第一样本视频中各视频帧分别与所述样本文案中各分词的相似度值,从所述样本文案中确定出与所述第一样本视频匹配的第一文本,包括:

5.根据权利要求2-4任一所述的方法,其特征在于,所述非标注样本文案包括:非标注内容概括文案和第一样本台词文本中的至少一项,所述标注样本文案包括:标注内容概括文案和第二样本台词文本中的至少一项;所述第一样本台词文本为所述第一样本视频对应的台词文本,所述第二样本台词文本为所述第二样本视频对应的台词文本。

6.根据权利要求1-4任一所述的方法,...

【专利技术属性】
技术研发人员:于洋
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1