【技术实现步骤摘要】
一种视频标签生成方法、装置及电子设备
[0001]本专利技术涉及多媒体
,特别是涉及一种视频标签生成方法、装置及电子设备。
技术介绍
[0002]随着网络的发展,每天都有海量的视频被用户上传到各大视频平台,而对于这些大量的视频,相关技术中使用标签来标注这些视频,以此高效的概括视频的主体内容,以便后续对视频的处理和应用。可见,视频标签标注的准确性对于视频平台较为重要,进一步的,如何准确确定视频的视频标签成为视频平台需要解决的重要问题。
技术实现思路
[0003]本专利技术实施例的目的在于提供一种视频标签生成方法、装置及电子设备,以实现准确生成视频标签。具体技术方案如下:
[0004]在本专利技术实施的第一方面,首先提供了一种视频标签生成方法,所述方法包括:
[0005]获取待标记视频的原始信息;
[0006]针对多个预设模态中的每个预设模态,从所述原始信息中确定模态为所述预设模态的信息,作为所述预设模态对应的模态信息;
[0007]针对每个所述预设模态,提取所述预设模态对应 ...
【技术保护点】
【技术特征摘要】
1.一种视频标签生成方法,其特征在于,所述方法包括:获取待标记视频的原始信息;针对多个预设模态中的每个预设模态,从所述原始信息中确定模态为所述预设模态的信息,作为所述预设模态对应的模态信息;针对每个所述预设模态,提取所述预设模态对应的模态信息的特征表示,作为所述预设模态对应的特征表示;将各所述预设模态对应的特征表示融合,并基于融合后的特征表示召回所述待标记视频的目标标签。2.根据权利要求1所述的方法,其特征在于,所述将各所述预设模态对应的特征表示融合,并基于融合后的特征表示召回所述待标记视频的目标标签,包括:将各所述预设模态对应的特征表示输入至Transformer模型的Encode编码端进行编码,得到特征表示编码;将所述特征表示编码输入至所述Transformer模型的Decode解码端进行解码,得到目标标签。3.根据权利要求2所述的方法,其特征在于,所述将所述特征表示编码输入至所述Transformer模型的Decode端进行解码,得到目标标签,包括:将所述特征表示编码和历史融合标签输入至所述Transformer模型的Decode端进行解码,得到目标标签,所述历史融合标签为所述Transformer模型在历史融合过程中对所述待标记视频的标签进行召回时输出的标签。4.根据权利要求1所述的方法,其特征在于,所述多个预设模态包括:文本模态;所述提取所述预设模态对应的模态信息的特征表示,作为所述预设模态对应的特征表示,包括:将所述文本模态对应的文本模态信息输入至目标ALBERT模型中,以使所述目标ALBERT模型输出所述文本模态对应的文本特征表示,其中,所述目标ALBERT模型是由所述原始ALBERT模型通过样本文本模态信息和变换文本模态信息训练得到的,所述变换文本模态信息是通过变换所述样本文本模态信息的文本中词语顺序得到的信息。5.根据权利要求1所述的方法,其特征在于,所述多个预设模态包括:图像模态;所述提取所述预设模态对应的模态信息的特征表示,作为所述预设模态对应的特征表示,包括:将所述图像模态对应的图像模态信息输入至EfficientNet模型中提取图像特征,使所述EfficientNet模型输出所述图像模态信息对应的图像特征表示。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:通过所述EfficientNet模型对所述待标记视频建立基于图像的标签生成任务;将所述图像特征表示输入至所述EfficientNet模型,使所述EfficientNet模型输出图像标签,作为所述待标记视频的目标标签。7.根据权利要求5所述的方法,其特征在于,所述多个预设模态包括:视频模态,所述视频模态对应的模态信息为视频模态信息;所述提取所述预设模态对应的模态信息的特征表示,作为所述预设模态对应的特征表示,包括:
对所述图像特征表示进行解析组合,得到所述视频模态信息对应的视频特征表示。8.根据权利要求1所述的方法,其特征在于,所述多个预设模态包括:音频模态,所述音频模态对应的音频模态信息包括:所述待标记视频的音频数据;所述提取所述预设模态对应的模态信息的特征表示,作为所述预设模态对应的特征表示,包括:将所述待标记视频的音频数据输入至vggish模型中,使所述vggish模型输出所述音频模态信息对应的音频特征表示。9.根据权利要求1所述的...
【专利技术属性】
技术研发人员:万国,张徵,樊文浩,施雯,秦超,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。