视频内容理解方法和系统、计算机设备、存储介质技术方案

技术编号：38640640 阅读：10 留言：0更新日期：2023-08-31 18:34

本申请实施例提供了一种视频内容理解方法和系统、计算机设备、存储介质，属于人工智能技术领域。该方法包括：获取初始视频、初始视频的视频标题文本和初始视频的发布属性信息；对初始视频进行视频镜头分割处理，得到候选镜头视频；对候选镜头视频进行关键帧提取处理，得到关键帧图像；根据预设的目标检测模型对关键帧图像进行目标信息检测处理，得到目标关键信息；根据预先训练的文本提取模型对关键帧图像进行文本信息提取，得到文本关键信息；对视频标题文本进行关键词抽取，得到目标关键词。本申请实施例能够提高对视频内容理解的准确率和识别效率。和识别效率。和识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
视频内容理解方法和系统、计算机设备、存储介质

[0001]本申请涉及人工智能
，尤其涉及一种视频内容理解方法和系统、计算机设备、存储介质。

技术介绍

[0002]目前，相关技术对视频理解的方法包括通过人工标注视频中的有效信息以进行审核，该方法的审核效率较低且容易产生由于主观因素造成对视频理解偏差的问题；或者，通过构建视频对比学习框架实现对视频的理解，但该方法的实现过程较为复杂且对视频理解的效率较低。因此，如何提供一种对视频内容理解更准确且效率更高的方法，成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出了一种视频内容理解方法和系统、计算机设备、存储介质，能够提高对视频内容理解的准确率和识别效率。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种视频内容理解方法，所述方法包括：
[0005]获取初始视频、所述初始视频的视频标题文本和所述初始视频的发布属性信息；
[0006]对所述初始视频进行视频镜头分割处理，得到候选镜头视频；
[0007]对所述候选镜头视频进行关键帧提取处理，得到关键帧图像；
[0008]根据预设的目标检测模型对所述关键帧图像进行目标信息检测处理，得到目标关键信息；
[0009]根据预先训练的文本提取模型对所述关键帧图像进行文本信息提取，得到文本关键信息；
[0010]对所述视频标题文本进行关键词抽取，得到目标关键词；
[0011]根据预设的语言模型对所述发布属性信息、所...

【技术保护点】

【技术特征摘要】
1.一种视频内容理解方法，其特征在于，所述方法包括：获取初始视频、所述初始视频的视频标题文本和所述初始视频的发布属性信息；对所述初始视频进行视频镜头分割处理，得到候选镜头视频；对所述候选镜头视频进行关键帧提取处理，得到关键帧图像；根据预设的目标检测模型对所述关键帧图像进行目标信息检测处理，得到目标关键信息；根据预先训练的文本提取模型对所述关键帧图像进行文本信息提取，得到文本关键信息；对所述视频标题文本进行关键词抽取，得到目标关键词；根据预设的语言模型对所述发布属性信息、所述目标关键信息、所述文本关键信息和所述目标关键词进行文本生成处理，得到目标视频文本。2.根据权利要求1所述的方法，其特征在于，所述对所述初始视频进行视频镜头分割处理，得到候选镜头视频，包括：获取所述初始视频的第一视频帧图像和第二视频帧图像，所述第一视频帧图像为与所述第二视频帧图像相邻的前一视频帧图像；对所述第一视频帧图像进行图像颜色提取，得到第一视频帧颜色信息；对所述第二视频帧图像进行图像颜色提取，得到第二视频帧颜色信息；对所述第一视频帧颜色信息和所述第二视频帧颜色信息进行颜色差分处理，得到颜色差分数据；对所述颜色差分数据和预设的颜色差分阈值进行数值比较，得到差分比较结果；根据所述差分比较结果对所述初始视频进行视频边界检测，得到候选视频镜头边界信息；根据所述候选视频镜头边界信息对所述初始视频进行视频镜头划分，得到所述候选镜头视频。3.根据权利要求1所述的方法，其特征在于，所述对所述候选镜头视频进行关键帧提取处理，得到关键帧图像，包括：根据预设帧采样间隔对所述候选镜头视频进行视频帧采样处理，得到候选采样帧图像；根据预设聚类数量对所述候选采样帧图像进行聚类中心提取，得到初始聚类中心帧图像，并根据所述初始聚类中心帧图像确定目标采样帧图像，所述目标采样帧图像用于表征剔除当前的所述初始聚类中心帧图像后其他的所述初始聚类中心帧图像；对所述初始聚类中心帧图像和所述目标采样帧图像进行相似度计算，得到初始聚类相似度数据；根据预设的聚类相似度阈值和所述初始聚类相似度数据对所述初始聚类中心帧图像进行聚类图像更新处理，得到目标聚类中心帧图像，并将所述目标聚类中心帧图像作为所述关键帧图像。4.根据权利要求3所述的方法，其特征在于，所述根据预设的聚类相似度阈值和所述初始聚类相似度数据对所述初始聚类中心帧图像进行聚类图像更新处理，得到目标聚类中心帧图像，包括：
根据所述聚类相似度数据得到采样帧总相似度数据；对所述聚类相似度阈值和所述采样帧总相似度数据进行数值比较，得到相似度比较结果；当所述相似度比较结果表示所述采样帧总相似度数据小于所述聚类相似度阈值，对所述预设聚类数量进行数量调整，以更新所述预设聚类数量；根据更新后的所述预设聚类数量对所述候选采样帧图像进行聚类中心提取，得到所述目标聚类中心帧图像，并根据所述目标聚类中心帧图像更新所述目标采样帧图像。5.根据权利要求1所述的方法，其特征在于，在所述根据预先训练的文本提取模型对所述关键帧图像进行文本信息提取，得到文本关键信息之前，所述方法还包括：训练所述文本提取模型，具体包括：获取视频样本图像和所述视频样本图像中的视频样本文...

【专利技术属性】
技术研发人员：张兴，陈镭，郑毅，王伟，李昕尧，张黔，陈焕坤，曾志贤，
申请(专利权)人：广东润联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人