本申请实施例公开了一种基于人工智能的视频向量确定方法和装置,至少涉及人工智能中的机器学习技术,获取待处理视频的多个视频特征;所述多个视频特征所包括视频特征的特征来源不同,任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容;根据所述多个视频特征进行特征拼接,得到多模态向量;根据所述多模态向量确定所述待处理视频的视频向量。用于确定视频向量的多个视频特征来自待处理视频的不同特征来源,从而确定出的视频向量可以从多个维度体现出待处理视频的内容,丰富了视频向量的视频表示能力,提高了视频向量对待处理视频的标识精度。
A method and device for determining video vector
【技术实现步骤摘要】
一种视频向量确定方法和装置
本申请涉及数据处理领域,特别是涉及一种视频向量确定方法和装置。
技术介绍
视频向量是一种对应视频的、包含语义信息的表示形式,可以体现视频的内容特点,相当于视频的一种内容标签。视频向量有助于进行视频检索和视频推荐,是视频相关业务所必需具备的重要且有效的能力。相关技术中,主要采用视频的相关说明文字例如标题、来源等作为构建视频向量的依据,借助深度学习方法,如卷积神经网络、循环神经网络、注意力网络等,针对特定任务进行训练和学习,最终得到包含语义信息的视频向量。然而,目前的所确定的视频向量没能充分利用视频内容特征,导致视频表示能力不足。
技术实现思路
为了解决上述技术问题,本申请提供了一种视频向量确定方法和装置,丰富了视频向量的视频表示能力,提高了视频向量对待处理视频的标识精度。。本申请实施例公开了如下技术方案:一方面,本申请实施例提供了一种视频向量确定方法,所述方法包括:获取待处理视频的多个视频特征;所述多个视频特征所包括视频特征的特征来源不同,任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容;根据所述多个视频特征进行特征拼接,得到多模态向量;根据所述多模态向量确定所述待处理视频的视频向量。另一方面,本申请实施例提供了一种视频向量确定装置,所述装置包括获取单元、拼接单元和确定单元:所述获取单元,用于获取待处理视频的多个视频特征;所述多个视频特征所包括视频特征的特征来源不同,任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容;所述拼接单元,用于根据所述多个视频特征进行特征拼接,得到多模态向量;所述确定单元,用于根据所述多模态向量确定所述待处理视频的视频向量。另一方面,本申请实施例提供了一种用于视频向量确定的设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行上述方面描述的方法。另一方面,本申请实施例提供了一种计算机存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面描述的方法。由上述技术方案可以看出,获取待处理视频的多个视频特征;所述多个视频特征所包括视频特征的特征来源不同,任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容;根据所述多个视频特征进行特征拼接,得到多模态向量;根据所述多模态向量确定所述待处理视频的视频向量。用于确定视频向量的多个视频特征来自待处理视频的不同特征来源,从而确定出的视频向量可以从多个维度体现出待处理视频的内容,丰富了视频向量的视频表示能力,提高了视频向量对待处理视频的标识精度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的视频向量确定方法的应用场景图;图2为本申请实施例提供的一种视频向量确定方法的流程示意图;图3为本申请实施例提供的视频预处理的流程示意图;图4为本申请实施例提供的多模态视频向量表示模型的结构示意图;图5为本申请实施例提供的另一种视频向量确定方法的流程示意图;图6为本申请实施例提供的视频向量确定方法的应用场景示意图;图7为本申请实施例提供的视频向量确定装置的结构示意图;图8是本申请实施例提供的一种服务器结构示意图;图9为本申请实施例提供的一种终端设备的结构示意图。具体实施方式下面结合附图,对本申请的实施例进行描述。为了丰富视频向量的视频表示能力,本申请实施例提供了一种视频向量确定方法,利用待处理视频的不同特征来源的多个视频特征,确定出该待处理视频的视频向量,从多个维度体现了待处理视频的内容,丰富了视频向量的视频表示能力,提高了视频向量对待处理视频的标识精度。本申请实施例所提供的视频向量确定方法是基于人工智能实现的,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在本申请实施例中,主要涉及的人工智能软件技术包括上述计算机视觉技术、语音处理技术、自然语言处理技术和深度学习等方向。例如可以涉及计算机视觉技术(ComputerVision)中的视频处理(Videoprocessing)技术、图像处理(Imageprocessing)技术,其中包括图像二值化(Imagebinaryzation)、图像特征提取(Imagefeatureextraction)等。例如可以涉及语音技术(SpeechTechnology)中的语音识别技术,其中包括语音信号预处理(Speechsignalpreprocessing)、语音信号特征提取(Speechsignalfeatureextraction)、语音信号特征匹配/识别(Speechsignalfeaturematching/recognition)、语音的训练(Speechtraining)等。例如可以涉及自然语言处理(NatureLanguageprocessing,NLP)中的文本预处理(Textpreprocessing)和机器翻译(MachineTranslation)等,其中包括词、句切分(word/sentencesegementation)、词性标注(wordtagging)、语句分类(word/sentenceclassification)、译词选择(wordselection)、语句生成(sentencegeneration)、词性变化(word-activity)、编辑输出(Edittingandoutputting)等。例如可以涉及机器学习(MachineLearning,ML)技术中的深度学习(DeepLearning),其中包括人工神经网络(Artificialneuralnetwork)、注意学习(Attentionlearning)等本申请本文档来自技高网...
【技术保护点】
1.一种视频向量确定方法,其特征在于,所述方法包括:/n获取待处理视频的多个视频特征;所述多个视频特征所包括视频特征的特征来源不同,任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容;/n根据所述多个视频特征进行特征拼接,得到多模态向量;/n根据所述多模态向量确定所述待处理视频的视频向量。/n
【技术特征摘要】
1.一种视频向量确定方法,其特征在于,所述方法包括:
获取待处理视频的多个视频特征;所述多个视频特征所包括视频特征的特征来源不同,任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容;
根据所述多个视频特征进行特征拼接,得到多模态向量;
根据所述多模态向量确定所述待处理视频的视频向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多模态向量确定所述待处理视频的视频向量,包括:
根据所述多模态向量,通过神经网络模型确定所述待处理视频的视频向量;
所述神经网络模型根据如下方式训练得到:
获取已标记视频,所述已标记视频具有确定的视频向量;
根据所述已标记视频的多模态向量和视频向量作为训练样本对所述神经网络模型进行训练。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述方法还包括:
获取目标用户的用户画像信息;
根据所述用户画像信息确定用户特征向量;
所述根据所述多模态向量确定所述待处理视频的视频向量,包括:
根据所述多模态向量和所述用户特征向量确定所述待处理视频对应所述目标用户的视频向量。
4.根据权利要求1所述的方法,其特征在于,所述多个视频特征包括如下任意多个的组合:
根据所述待处理视频的文本信息所确定的第一视频特征;
根据所述待处理视频的视频图像内容所确定的第二视频特征;
根据所述待处理视频的音频内容所确定的第三视频特征。
5.根据权利要求4所述的方法,其特征在于,若所述多个视频特征包括所述第二视频特征,所述第二视频特征根据如下方式确定:
通过图像识别模型确定所述待处理视频的视频帧分别对应的像素特征;
根据所述视频帧在所述待...
【专利技术属性】
技术研发人员:李伟康,陈小帅,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。