视频内容理解方法和系统、计算机设备、存储介质技术方案

技术编号:38640640 阅读:10 留言:0更新日期:2023-08-31 18:34
本申请实施例提供了一种视频内容理解方法和系统、计算机设备、存储介质,属于人工智能技术领域。该方法包括:获取初始视频、初始视频的视频标题文本和初始视频的发布属性信息;对初始视频进行视频镜头分割处理,得到候选镜头视频;对候选镜头视频进行关键帧提取处理,得到关键帧图像;根据预设的目标检测模型对关键帧图像进行目标信息检测处理,得到目标关键信息;根据预先训练的文本提取模型对关键帧图像进行文本信息提取,得到文本关键信息;对视频标题文本进行关键词抽取,得到目标关键词。本申请实施例能够提高对视频内容理解的准确率和识别效率。和识别效率。和识别效率。

【技术实现步骤摘要】
视频内容理解方法和系统、计算机设备、存储介质


[0001]本申请涉及人工智能
,尤其涉及一种视频内容理解方法和系统、计算机设备、存储介质。

技术介绍

[0002]目前,相关技术对视频理解的方法包括通过人工标注视频中的有效信息以进行审核,该方法的审核效率较低且容易产生由于主观因素造成对视频理解偏差的问题;或者,通过构建视频对比学习框架实现对视频的理解,但该方法的实现过程较为复杂且对视频理解的效率较低。因此,如何提供一种对视频内容理解更准确且效率更高的方法,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出了一种视频内容理解方法和系统、计算机设备、存储介质,能够提高对视频内容理解的准确率和识别效率。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种视频内容理解方法,所述方法包括:
[0005]获取初始视频、所述初始视频的视频标题文本和所述初始视频的发布属性信息;
[0006]对所述初始视频进行视频镜头分割处理,得到候选镜头视频;
[0007]对所述候选镜头视频进行关键帧提取处理,得到关键帧图像;
[0008]根据预设的目标检测模型对所述关键帧图像进行目标信息检测处理,得到目标关键信息;
[0009]根据预先训练的文本提取模型对所述关键帧图像进行文本信息提取,得到文本关键信息;
[0010]对所述视频标题文本进行关键词抽取,得到目标关键词;
[0011]根据预设的语言模型对所述发布属性信息、所述目标关键信息、所述文本关键信息和所述目标关键词进行文本生成处理,得到目标视频文本。
[0012]在一些实施例中,所述对所述初始视频进行视频镜头分割处理,得到候选镜头视频,包括:
[0013]获取所述初始视频的第一视频帧图像和第二视频帧图像,所述第一视频帧图像为与所述第二视频帧图像相邻的前一视频帧图像;
[0014]对所述第一视频帧图像进行图像颜色提取,得到第一视频帧颜色信息;
[0015]对所述第二视频帧图像进行图像颜色提取,得到第二视频帧颜色信息;
[0016]对所述第一视频帧颜色信息和所述第二视频帧颜色信息进行颜色差分处理,得到颜色差分数据;
[0017]对所述颜色差分数据和预设的颜色差分阈值进行数值比较,得到差分比较结果;
[0018]根据所述差分比较结果对所述初始视频进行视频边界检测,得到候选视频镜头边
界信息;
[0019]根据所述候选视频镜头边界信息对所述初始视频进行视频镜头划分,得到所述候选镜头视频。
[0020]在一些实施例中,所述对所述候选镜头视频进行关键帧提取处理,得到关键帧图像,包括:
[0021]根据预设帧采样间隔对所述候选镜头视频进行视频帧采样处理,得到候选采样帧图像;
[0022]根据预设聚类数量对所述候选采样帧图像进行聚类中心提取,得到初始聚类中心帧图像,并根据所述初始聚类中心帧图像确定目标采样帧图像,所述目标采样帧图像用于表征剔除当前的所述初始聚类中心帧图像后其他的所述初始聚类中心帧图像;
[0023]对所述初始聚类中心帧图像和所述目标采样帧图像进行相似度计算,得到初始聚类相似度数据;
[0024]根据预设的聚类相似度阈值和所述初始聚类相似度数据对所述初始聚类中心帧图像进行聚类图像更新处理,得到目标聚类中心帧图像,并将所述目标聚类中心帧图像作为所述关键帧图像。
[0025]在一些实施例中,所述根据预设的聚类相似度阈值和所述初始聚类相似度数据对所述初始聚类中心帧图像进行聚类图像更新处理,得到目标聚类中心帧图像,包括:
[0026]根据所述聚类相似度数据得到采样帧总相似度数据;
[0027]对所述聚类相似度阈值和所述采样帧总相似度数据进行数值比较,得到相似度比较结果;
[0028]当所述相似度比较结果表示所述采样帧总相似度数据小于所述聚类相似度阈值,对所述预设聚类数量进行数量调整,以更新所述预设聚类数量;
[0029]根据更新后的所述预设聚类数量对所述候选采样帧图像进行聚类中心提取,得到所述目标聚类中心帧图像,并根据所述目标聚类中心帧图像更新所述目标采样帧图像。
[0030]在一些实施例中,在所述根据预先训练的文本提取模型对所述关键帧图像进行文本信息提取,得到文本关键信息之前,所述方法还包括:训练所述文本提取模型,具体包括:
[0031]获取视频样本图像和所述视频样本图像中的视频样本文本;
[0032]将所述视频样本图像输入预设的初始网络模型,所述初始网络模型包括图像卷积层、双向循环预测层、字符转录层;
[0033]根据所述图像卷积层对所述视频样本图像进行特征提取,得到视频图像特征;
[0034]根据所述双向循环预测层对所述视频图像特征进行图像字符预测,得到图像字符概率数据;
[0035]根据所述字符转录层对所述图像字符概率数据进行字符序列转换,得到目标预测文本;
[0036]根据所述目标预测文本和所述视频样本文本进行文本损失计算,得到文本损失数据;
[0037]根据所述文本损失数据对所述初始网络模型进行参数调整,得到所述文本提取模型。
[0038]在一些实施例中,所述对所述视频标题文本进行关键词抽取,得到目标关键词,包
括:
[0039]对所述视频标题文本进行文本句子划分,得到候选标题语句;
[0040]对所述候选标题语句进行语句分词处理,得到初始关键词和所述初始关键词的词性标签;
[0041]根据预设标签对所述词性标签进行标签判断,并根据标签判断的结果得到候选关键词;
[0042]根据所述候选关键词进行图构建处理,得到候选关键词图;
[0043]根据所述候选关键词图和预设的节点数量阈值进行关键词筛选处理,得到所述目标关键词。
[0044]在一些实施例中,所述候选关键词图包括候选节点和候选边,所述候选节点用于表示所述候选关键词,且根据所述候选节点和所述候选边表示所述候选标题语句;
[0045]所述根据所述候选关键词图和预设的节点数量阈值进行关键词筛选处理,得到所述目标关键词,包括:
[0046]根据所述候选节点和所述候选边得到与所述候选节点连接的目标节点;
[0047]根据预设权重计算函数和所述目标节点对所述候选节点进行节点权重计算,得到节点权重数据;
[0048]对所述节点权重数据进行降序排序,得到节点权重序列;
[0049]根据所述节点数量阈值对所述节点权重序列进行权重数据筛选,得到目标权重数据;
[0050]根据所述目标权重数据对应的候选节点得到目标关键节点,并根据所述目标关键节点得到所述目标关键词。
[0051]为实现上述目的,本申请实施例的第二方面提出了一种视频内容理解系统,所述系统包括:
[0052]视频信息获取模块,用于获取初始视频、所述初始视频的视频标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频内容理解方法,其特征在于,所述方法包括:获取初始视频、所述初始视频的视频标题文本和所述初始视频的发布属性信息;对所述初始视频进行视频镜头分割处理,得到候选镜头视频;对所述候选镜头视频进行关键帧提取处理,得到关键帧图像;根据预设的目标检测模型对所述关键帧图像进行目标信息检测处理,得到目标关键信息;根据预先训练的文本提取模型对所述关键帧图像进行文本信息提取,得到文本关键信息;对所述视频标题文本进行关键词抽取,得到目标关键词;根据预设的语言模型对所述发布属性信息、所述目标关键信息、所述文本关键信息和所述目标关键词进行文本生成处理,得到目标视频文本。2.根据权利要求1所述的方法,其特征在于,所述对所述初始视频进行视频镜头分割处理,得到候选镜头视频,包括:获取所述初始视频的第一视频帧图像和第二视频帧图像,所述第一视频帧图像为与所述第二视频帧图像相邻的前一视频帧图像;对所述第一视频帧图像进行图像颜色提取,得到第一视频帧颜色信息;对所述第二视频帧图像进行图像颜色提取,得到第二视频帧颜色信息;对所述第一视频帧颜色信息和所述第二视频帧颜色信息进行颜色差分处理,得到颜色差分数据;对所述颜色差分数据和预设的颜色差分阈值进行数值比较,得到差分比较结果;根据所述差分比较结果对所述初始视频进行视频边界检测,得到候选视频镜头边界信息;根据所述候选视频镜头边界信息对所述初始视频进行视频镜头划分,得到所述候选镜头视频。3.根据权利要求1所述的方法,其特征在于,所述对所述候选镜头视频进行关键帧提取处理,得到关键帧图像,包括:根据预设帧采样间隔对所述候选镜头视频进行视频帧采样处理,得到候选采样帧图像;根据预设聚类数量对所述候选采样帧图像进行聚类中心提取,得到初始聚类中心帧图像,并根据所述初始聚类中心帧图像确定目标采样帧图像,所述目标采样帧图像用于表征剔除当前的所述初始聚类中心帧图像后其他的所述初始聚类中心帧图像;对所述初始聚类中心帧图像和所述目标采样帧图像进行相似度计算,得到初始聚类相似度数据;根据预设的聚类相似度阈值和所述初始聚类相似度数据对所述初始聚类中心帧图像进行聚类图像更新处理,得到目标聚类中心帧图像,并将所述目标聚类中心帧图像作为所述关键帧图像。4.根据权利要求3所述的方法,其特征在于,所述根据预设的聚类相似度阈值和所述初始聚类相似度数据对所述初始聚类中心帧图像进行聚类图像更新处理,得到目标聚类中心帧图像,包括:
根据所述聚类相似度数据得到采样帧总相似度数据;对所述聚类相似度阈值和所述采样帧总相似度数据进行数值比较,得到相似度比较结果;当所述相似度比较结果表示所述采样帧总相似度数据小于所述聚类相似度阈值,对所述预设聚类数量进行数量调整,以更新所述预设聚类数量;根据更新后的所述预设聚类数量对所述候选采样帧图像进行聚类中心提取,得到所述目标聚类中心帧图像,并根据所述目标聚类中心帧图像更新所述目标采样帧图像。5.根据权利要求1所述的方法,其特征在于,在所述根据预先训练的文本提取模型对所述关键帧图像进行文本信息提取,得到文本关键信息之前,所述方法还包括:训练所述文本提取模型,具体包括:获取视频样本图像和所述视频样本图像中的视频样本文...

【专利技术属性】
技术研发人员:张兴陈镭郑毅王伟李昕尧张黔陈焕坤曾志贤
申请(专利权)人:广东润联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1