一种视频识别方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号:35157360 阅读:32 留言:0更新日期:2022-10-12 17:14
本申请实施例公开了一种视频识别方法、装置、设备以及计算机可读存储介质;本申请实施例获取待识别视频的标题信息及图像帧信息;将标题信息转化为多维词向量集合,及将图像帧信息转化为多维数组图像向量;将多维词向量集合及多维数组图像向量输入训练好的目标偏好概率模型,得到待识别视频的目标偏好概率,其中,训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到;基于目标偏好概率,对待识别视频进行识别;以此,通过待识别视频的标题信息和图像帧信息双模态对视频进行偏好识别,实现充分利用视频的整体信息,更大程度的挖掘用户的偏好信息,极大的提高了视频识别的准确性。极大的提高了视频识别的准确性。极大的提高了视频识别的准确性。

【技术实现步骤摘要】
一种视频识别方法、装置、设备以及计算机可读存储介质


[0001]本申请涉及人工智能领域,具体涉及一种视频识别方法、装置、设备以及计算机可读存储介质。

技术介绍

[0002]近年来,随着神经网络技术在人工智能领域的大热,将神经网络应用于视频识别方面也有了长足的发展。尤其是将神经网络应用于视频识别领域。为了提升神经网络对视频识别的自动化,相关技术在视频特征信息较为匮乏的情况下,是基于视频的某一模态来识别视频,从而挖掘出用户对视频的喜好。
[0003]在对现有技术的研究和实践过程中,本申请的专利技术人发现对于现有的从单一模态对视频的识别方法,在对视频进行识别时,单一模态信息并没有充分利用视频的整体信息,能挖掘用户的喜好信息有限,因此,会大大影响对视频识别的准确性。

技术实现思路

[0004]本申请实施例提供一种视频识别方法、装置、设备以及计算机可读存储介质。可以提高视频识别的准确性。
[0005]本申请实施例提供一种视频识别方法,包括:
[0006]获取待识别视频的标题信息及图像帧信息;
[0007]将所述标题信息转化为多维词向量集合,及将所述图像帧信息转化为多维数组图像向量;
[0008]将所述多维词向量集合及所述多维数组图像向量输入训练好的目标偏好概率模型,得到所述待识别视频的目标偏好概率,其中,所述训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到;
[0009]基于所述目标偏好概率,对所述待识别视频进行识别。
[0010]相应的,本申请实施例提供一种视频识别装置,包括:
[0011]获取单元,用于获取待识别视频的标题信息及图像帧信息;
[0012]词向量转化单元,用于将所述标题信息转化为多维词向量集合;
[0013]图像向量转化单元,用于将所述图像帧信息转化为多维数组图像向量;
[0014]生成单元,用于将所述多维词向量集合及所述多维数组图像向量输入训练好的目标偏好概率模型,得到所述待识别视频的目标偏好概率,其中,所述训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到;
[0015]识别单元,用于基于所述目标偏好概率,对所述待识别视频进行识别。
[0016]在一些实施例中,所述训练单元,还用于:
[0017]将所述多维词样本向量集合及多维数组图像样本向量输入预设偏好概率模型,得到预测偏好概率;
[0018]根据所述偏好概率及预测偏好概率之间差异值;
[0019]基于所述差异值对所述预设偏好概率模型的网络参数进行迭代训练,直至所述差异值收敛,得到训练后的目标偏好概率模型。
[0020]在一些实施例中,所述词向量转化单元,还用于
[0021]根据词性信息将所述标题信息分为多个词信息;
[0022]将所述多个词组进行过滤,得到多个词组;
[0023]将每一词组进行向量化处理,得到多维词向量集合。
[0024]在一些实施例中,所述图像向量转化单元,还用于:
[0025]将所述图像帧信息进行尺寸调整,得到尺寸调整后的图像帧信息;
[0026]将所述尺寸调整后的图像帧信息转换为三维图像帧数组;
[0027]将所述三维图像帧数组进行归一化处理,得到多维数组图像向量。
[0028]在一些实施例中,所述图像向量转化单元,还用于:
[0029]获取所述尺寸调整后的图像帧信息的像素数据;
[0030]根据所述像素数据转换为三个二维像素数组;
[0031]根据所述三个二维像素数组生成三维图像帧数组。
[0032]在一些实施例中,所述生成单元,还用于:
[0033]通过所述目标偏好概率模型中的长短记忆网络提取所述多维词向量集合中的所有的多维词向量;
[0034]通过所述长短记忆网络扩展每个多维词向量对应的隐藏态词向量;
[0035]根据所有的隐藏态词向量进行计算,得到所述标题信息对应的标题偏好向量。
[0036]在一些实施例中,所述生成单元,还用于:
[0037]将所述多维数组图像向量输入所述目标偏好概率模型中的残差网络;
[0038]通过所述残差网络对所述多维数组图像向量进行特征提取,得到多维数组图像特征向量集合;
[0039]基于所述多维数组图像特征向量集合,选取所述残差网络中第二池化层对应的多维数组图像特征向量作为图像偏好向量。
[0040]在一些实施例中,所述生成单元,还用于:
[0041]将所述目标标题偏好向量与所述图像偏好向量进行融合,得到输入至所述目标偏好概率模型中的全连接层的目标视频偏好向量;
[0042]通过所述全连接层对所述目标视频偏好向量进行非线性处理,得到非线性处理后的融合偏好向量;
[0043]将所述融合偏好向量输入至分类层,输出对应的目标偏好概率。
[0044]此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的视频识别方法。
[0045]此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种视频识别方法中的步骤。
[0046]本申请实施例可以获取待识别视频的标题信息及图像帧信息;将标题信息转化为多维词向量集合,及将图像帧信息转化为多维数组图像向量;将多维词向量集合及多维数
组图像向量输入训练好的目标偏好概率模型,得到待识别视频的目标偏好概率,其中,训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到;基于目标偏好概率,对待识别视频进行识别。相对于现有技术中以单一模态信息对视频进行识别,该方案可以在视频的特征信息较为匮乏情况下,引入视频中的其他多种模态信息来扩充识别特征,以及迭代训练得到目标偏好概率模型,并通过待识别视频的标题信息和图像帧信息双模态输入目标偏好概率模型,以对视频进行偏好识别,实现充分利用视频的整体信息,以更大程度的挖掘用户的偏好信息,极大的提高了视频识别的准确性。
附图说明
[0047]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048]图1是本申请实施例提供的视频识别方法的场景示意图;
[0049]图2是本申请实施例提供的视频识别方法的步骤流程示意图;
[0050]图3是本申请实施例提供的视频识别方法的另一步骤流程示意图;
[0051]图4是本申请实施例提供的目标偏好概率模型的结构示意图;
[0052]图5是本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法,其特征在于,包括:获取待识别视频的标题信息及图像帧信息;将所述标题信息转化为多维词向量集合,及将所述图像帧信息转化为多维数组图像向量;将所述多维词向量集合及所述多维数组图像向量输入训练好的目标偏好概率模型,得到所述待识别视频的目标偏好概率,其中,所述训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到;基于所述目标偏好概率,对所述待识别视频进行识别。2.根据权利要求1所述的方法,其特征在于,所述获取待识别视频的标题信息及图像帧信息,之前还包括:采集历史视频样本;获取所述历史视频样本的偏好概率、标题样本信息及图像帧样本信息;将所述标题样本信息转化为多维词样本向量集合,及将所述图像帧样本信息转化为多维数组图像样本向量;将所述多维词样本向量集合及多维数组图像样本向量联合输入至预设偏好概率模型,得到训练后的目标偏好概率模型。3.根据权利要求2所述的方法,其特征在于,所述将所述多维词样本向量集合及多维数组图像样本向量联合输入至预设偏好概率模型,得到训练后的目标偏好概率模型,包括:将所述多维词样本向量集合及多维数组图像样本向量输入预设偏好概率模型,得到预测偏好概率;根据所述偏好概率及预测偏好概率之间差异值;基于所述差异值对所述预设偏好概率模型的网络参数进行迭代训练,直至所述差异值收敛,得到训练后的目标偏好概率模型。4.根据权利要求1所述的方法,其特征在于,所述将所述标题信息转化为多维词向量集合,包括:根据词性信息将所述标题信息分为多个词信息;将所述多个词组进行过滤,得到多个词组;将每一词组进行向量化处理,得到多维词向量集合。5.根据权利要求1所述的方法,其特征在于,所述将所述图像帧信息转化为多维数组图像向量,包括:将所述图像帧信息进行尺寸调整,得到尺寸调整后的图像帧信息;将所述尺寸调整后的图像帧信息转换为三维图像帧数组;将所述三维图像帧数组进行归一化处理,得到多维数组图像向量。6.根据权利要求5所述的方法,其特征在于,所述将所述尺寸调整后的图像帧信息转换为三维图像帧数组,包括:获取所述尺寸调整后的图像帧信息的像素数据;根据所述像素数据转换为三个二维像素数组;根据所述三个二维像素数组生成三维图像帧数组。7.根据权利要求1所述的方法,其特征在于,所述将所述多维词向量集合及所述多维数
组图像向量输入训练好的目标偏好概率模型,得到所述待识别视频的目标偏好概率,包括:将所述多维词向量集合及所述多维数组图像向量输入训练好的目标偏好概率模型;通过所述目标偏好概率模型中的长短记忆网络生成所述多维词向量集合对应的目标标题偏好向量;通过所述目标偏好概率模型中的残差网络生成所述多维数组图像向量对应的图像偏好向量;根据所述目标标题偏好向量与所述图像偏好向量确定所述待识别视频的目标偏好概率。8.根据权利要求7所述的方法,其特征在于,所述通过所述目标偏好概率模型中的长短记忆网络生成所述多维词向量集合对应的多个标题偏好向量,包括:通过所述目标偏好概率模型中的长短记忆网络提取所述多维词...

【专利技术属性】
技术研发人员:梁涛马连洋张晗
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1