The present disclosure relates to a method and device, a medium and an electronic device for automatically tagging video, belonging to the technical field of video processing. The method includes: acquiring video elements in response to video input; processing video elements according to predetermined rules corresponding to video elements to obtain pre-input elements; inputting each pre-input element into the depth learning model; and tagging video based on the output of the depth learning model. The present disclosure automatically labels video according to video elements through in-depth learning model, thereby improving the accuracy and efficiency of labeling.
【技术实现步骤摘要】
为视频自动打视频标签的方法及装置、介质和电子设备
本公开涉及视频处理
,具体而言,涉及一种为视频自动打视频标签的方法及装置、介质和电子设备。
技术介绍
视频标签是对视频按照视频的属性进行分类而标定的标签,是对视频进行排序以及向用户个性化推荐等的依据。近年来,通过视频进行传播信息、表现自我等具有很高的热度,用户寻找自己感兴趣的视频及某些商家或者平台推荐视频都需要依据视频的标签。通常所有的视频主要包括:视频的视频部分、视频的语音部分、视频的字幕部分,视频也是通过这些要素的一个或者多个结合起来传达信息的,只有综合这些信息才能对视频更加准确地标定标签。进一步的,如果采用人工标定的方式会造成对视频打标签的低效率、低准确度问题。因此,需要提供一种新的为视频自动打视频标签的方法和装置、介质和电子设备。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种为视频自动打视频标签的方案,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的为视频打标签的低效率、 ...
【技术保护点】
1.一种为视频自动打视频标签的方法,其特征在于,包括:响应于视频的输入,获取视频的视频要素;将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素;将各预输入要素输入深度学习模型;基于所述深度学习模型的输出,为视频打视频标签,其中,所述深度学习模型按照如下方式训练:将各预输入要素样本集合中的各预输入要素样本输入所述深度学习模型,所述深度学习模型输出预输入要素样本所来自的视频的标签,与视频已知标签进行比较,如果不一致,则调整所述深度学习模型中的系数,使所述深度学习模型输出的标签与该视频已知标签一致。
【技术特征摘要】
1.一种为视频自动打视频标签的方法,其特征在于,包括:响应于视频的输入,获取视频的视频要素;将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素;将各预输入要素输入深度学习模型;基于所述深度学习模型的输出,为视频打视频标签,其中,所述深度学习模型按照如下方式训练:将各预输入要素样本集合中的各预输入要素样本输入所述深度学习模型,所述深度学习模型输出预输入要素样本所来自的视频的标签,与视频已知标签进行比较,如果不一致,则调整所述深度学习模型中的系数,使所述深度学习模型输出的标签与该视频已知标签一致。2.根据权利要求1所述的方法,所述视频要素为视频,其特征在于,所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括:将所述视频分解成帧;将分解成的帧按照预定规则分组;将每一组的帧串联成视频帧序列作为预输入要素。3.据权利要求1所述的方法,所述视频要素为音频,其特征在于,所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括:从音频中,通过语音识别的方式识别出语音;将语音转换成文本;将转换后的文本进行中文分词后,通过词向量映射得到每个词的词向量;将所述词向量进行向量拼接,获得整个文本的特征向量映射,将整个文本的特征向量映射作为预输入要素。4.根据权利要求1所述的方法,所述视频要素为字幕,其特征在于,所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括:通过光学词符识别的方式识别字幕,以将字幕转换成文本;将转换后的文本进行中文分词后,通过词向量映射得到每个词的词向量;将所述词向量进行向量拼接,获得整个文本的特征向量...
【专利技术属性】
技术研发人员:陈方毅,陈晓君,李君懿,陶建,
申请(专利权)人:杭州柚子街信息科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。