一种视频识别方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号：35157360 阅读：32 留言：0更新日期：2022-10-12 17:14

本申请实施例公开了一种视频识别方法、装置、设备以及计算机可读存储介质；本申请实施例获取待识别视频的标题信息及图像帧信息；将标题信息转化为多维词向量集合，及将图像帧信息转化为多维数组图像向量；将多维词向量集合及多维数组图像向量输入训练好的目标偏好概率模型，得到待识别视频的目标偏好概率，其中，训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到；基于目标偏好概率，对待识别视频进行识别；以此，通过待识别视频的标题信息和图像帧信息双模态对视频进行偏好识别，实现充分利用视频的整体信息，更大程度的挖掘用户的偏好信息，极大的提高了视频识别的准确性。极大的提高了视频识别的准确性。极大的提高了视频识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频识别方法、装置、设备以及计算机可读存储介质

[0001]本申请涉及人工智能领域，具体涉及一种视频识别方法、装置、设备以及计算机可读存储介质。

技术介绍

[0002]近年来，随着神经网络技术在人工智能领域的大热，将神经网络应用于视频识别方面也有了长足的发展。尤其是将神经网络应用于视频识别领域。为了提升神经网络对视频识别的自动化，相关技术在视频特征信息较为匮乏的情况下，是基于视频的某一模态来识别视频，从而挖掘出用户对视频的喜好。
[0003]在对现有技术的研究和实践过程中，本申请的专利技术人发现对于现有的从单一模态对视频的识别方法，在对视频进行识别时，单一模态信息并没有充分利用视频的整体信息，能挖掘用户的喜好信息有限，因此，会大大影响对视频识别的准确性。

技术实现思路

[0004]本申请实施例提供一种视频识别方法、装置、设备以及计算机可读存储介质。可以提高视频识别的准确性。
[0005]本申请实施例提供一种视频识别方法，包括：
[0006]获取待识别视频的标题信息及图像帧信息；
[0007]将所述标题信息转化为多维词向量集合，及将所述图像帧信息转化为多维数组图像向量；
[0008]将所述多维词向量集合及所述多维数组图像向量输入训练好的目标偏好概率模型，得到所述待识别视频的目标偏好概率，其中，所述训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到；
[0009]基于所述目标偏好概率，对所述待识别视频进行识别。...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法，其特征在于，包括：获取待识别视频的标题信息及图像帧信息；将所述标题信息转化为多维词向量集合，及将所述图像帧信息转化为多维数组图像向量；将所述多维词向量集合及所述多维数组图像向量输入训练好的目标偏好概率模型，得到所述待识别视频的目标偏好概率，其中，所述训练好的目标偏好概率模型由历史视频样本对应的标题样本信息、图像帧样本信息及偏好概率联合训练得到；基于所述目标偏好概率，对所述待识别视频进行识别。2.根据权利要求1所述的方法，其特征在于，所述获取待识别视频的标题信息及图像帧信息，之前还包括：采集历史视频样本；获取所述历史视频样本的偏好概率、标题样本信息及图像帧样本信息；将所述标题样本信息转化为多维词样本向量集合，及将所述图像帧样本信息转化为多维数组图像样本向量；将所述多维词样本向量集合及多维数组图像样本向量联合输入至预设偏好概率模型，得到训练后的目标偏好概率模型。3.根据权利要求2所述的方法，其特征在于，所述将所述多维词样本向量集合及多维数组图像样本向量联合输入至预设偏好概率模型，得到训练后的目标偏好概率模型，包括：将所述多维词样本向量集合及多维数组图像样本向量输入预设偏好概率模型，得到预测偏好概率；根据所述偏好概率及预测偏好概率之间差异值；基于所述差异值对所述预设偏好概率模型的网络参数进行迭代训练，直至所述差异值收敛，得到训练后的目标偏好概率模型。4.根据权利要求1所述的方法，其特征在于，所述将所述标题信息转化为多维词向量集合，包括：根据词性信息将所述标题信息分为多个词信息；将所述多个词组进行过滤，得到多个词组；将每一词组进行向量化处理，得到多维词向量集合。5.根据权利要求1所述的方法，其特征在于，所述将所述图像帧信息转化为多维数组图像向量，包括：将所述图像帧信息进行尺寸调整，得到尺寸调整后的图像帧信息；将所述尺寸调整后的图像帧信息转换为三维图像帧数组；将所述三维图像帧数组进行归一化处理，得到多维数组图像向量。6.根据权利要求5所述的方法，其特征在于，所述将所述尺寸调整后的图像帧信息转换为三维图像帧数组，包括：获取所述尺寸调整后的图像帧信息的像素数据；根据所述像素数据转换为三个二维像素数组；根据所述三个二维像素数组生成三维图像帧数组。7.根据权利要求1所述的方法，其特征在于，所述将所述多维词向量集合及所述多维数
组图像向量输入训练好的目标偏好概率模型，得到所述待识别视频的目标偏好概率，包括：将所述多维词向量集合及所述多维数组图像向量输入训练好的目标偏好概率模型；通过所述目标偏好概率模型中的长短记忆网络生成所述多维词向量集合对应的目标标题偏好向量；通过所述目标偏好概率模型中的残差网络生成所述多维数组图像向量对应的图像偏好向量；根据所述目标标题偏好向量与所述图像偏好向量确定所述待识别视频的目标偏好概率。8.根据权利要求7所述的方法，其特征在于，所述通过所述目标偏好概率模型中的长短记忆网络生成所述多维词向量集合对应的多个标题偏好向量，包括：通过所述目标偏好概率模型中的长短记忆网络提取所述多维词...

【专利技术属性】
技术研发人员：梁涛，马连洋，张晗，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人