一种视频信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26172848 阅读:20 留言:0更新日期:2020-10-31 13:52
本发明专利技术提供了一种视频信息处理方法,包括:获取目标用户的历史视频对应的视频图像;基于所述视频图像,通过视频信息处理模型中的视频编码器网络确定历史视频特征向量;通过视频信息处理模型中的条件变分自编码器网络,根据所述历史视频特征向量确定与所述历史视频对应的隐变量;基于所述历史视频对应的隐变量,通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息,本发明专利技术还提供了信息处理装置、电子设备及存储介质。本发明专利技术能够实现通过输出文本信息作为所述目标用户实时视频流信息对应的回复文本,有效提升视频信息播放中回复文本的丰富程度,扩大了视频信息内容的回复场景,提升回复的前瞻性,提升用户的使用体验。

The invention relates to a video information processing method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种视频信息处理方法、装置、电子设备及存储介质
本专利技术涉及视频信息处理技术,尤其涉及视频信息处理方法、装置、电子设备及存储介质。
技术介绍
相关技术中,视频信息向量化表示是很多机器学习算法的基础,如何能基于视频信息准确进行向量表示是该方向的研究重点。相关技术大多相对比较片面,没有结构化地对视频进行表示学习。相关技术可以在实现针对不同模态的回复或评论生成时,可以根据用户输入的文本生成一段回复文本,或者根据一篇新闻文章,生成内容相关的新闻评论,但是不能够实现生成对直播视频的评论文本。
技术实现思路
有鉴于此,本专利技术实施例提供一种视频信息处理方法、装置、电子设备及存储介质,本专利技术实施例的技术方案是这样实现的:本专利技术实施例通提供了一种视频信息处理方法,所述方法包括:获取目标用户的历史视频对应的视频图像;基于所述视频图像,通过视频信息处理模型中的视频编码器网络确定历史视频特征向量;通过所述视频信息处理模型中的条件变分自编码器网络,根据所述历史视频特征向量确定与所述历史视频对应的隐变量;基于所述历史视频对应的隐变量,通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息,以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。上述方案中,基于所述视频图像对应的观众回复信息,通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量,包括:确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值;根据所述固定噪声阈值对所述视频图像对应的观众回复信息进行去噪处理,并触发与所述固定噪声阈值相匹配的动态分词策略;根据与所述动态噪声阈值相匹配的动态分词策略,对所述观众回复信息进行分词处理;通过所述回复编码器网络中的循环卷积神经子网络,对经过分词处理的所述观众回复信息进行词嵌入处理,形成相应的回复文本特征向量。本专利技术实施例还提供了一种视频信息处理装置,所述装置包括:信息传输模块,用于获取目标用户的历史视频对应的视频图像;信息处理模块,用于基于所述视频图像,通过视频信息处理模型中的视频编码器网络确定历史视频特征向量;所述信息处理模块,用于通过所述视频信息处理模型中的条件变分自编码器网络,根据所述历史视频特征向量确定与所述历史视频对应的隐变量;所述信息处理模块,用于基于所述历史视频对应的隐变量,通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息,以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。上述方案中,所述信息处理模块,用于当所述目标用户的类型为第一类型时,确定所述目标用户的历史视频中互动次数最多的历史视频;所述信息处理模块,用于提取所述互动次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。上述方案中,所述信息处理模块,用于当所述目标用户的类型为第二类型时,确定与所述目标用户的归属领域相同的其他用户的历史视频中收入最高的历史视频;所述信息处理模块,用于提取所述收入最高的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。上述方案中,所述信息处理模块,用于当所述目标用户的类型为第三类型时,确定与所述目标用户进行直播互动的其他用户的历史视频中播放次数最多的历史视频;所述信息处理模块,用于提取所述播放次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。上述方案中,所述装置还包括:训练模块,用于基于目标用户的历史视频,确定与所述视频信息处理模型相匹配的训练样本集合;所述训练模块,用于根据与所述训练样本集合对所述视频信息处理模型进行训练,确定与所述视频信息处理模型中不同网络结构相适配的模型参数,以实现通过所述视频信息处理模型不同网络结构,确定与所述训练样本相匹配的特征向量,并通过所述视频信息处理模型,利用与所述训练样本相匹配的特征向量,确定所述历史视频对应的文本信息。上述方案中,所述训练模块,用于获取目标用户的历史视频对应的视频图像和与所述视频图像对应的观众回复信息;所述训练模块,用于基于所述视频图像,通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量;所述训练模块,用于基于所述视频图像对应的观众回复信息,通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量;所述训练模块,用于通过所述视频信息处理模型中的条件变分自编码器网络,根据所述历史视频特征向量和所述回复文本特征向量确定与所述历史视频对应的隐变量;所述训练模块,用于将所述历史视频特征向量、回复文本特征向量以及与所述历史视频对应的隐变量组成为一组训练样本。上述方案中,所述训练模块,用于通过所述视频编码器网络中的视频卷积神经子网络,对所述视频图像进行编码,获得所有图像帧的第一视频向量集合;所述训练模块,用于对所述历史视频进行解析,获取所述历史视频的时序信息;所述训练模块,用于基于所述历史视频的时序信息和所述第一视频向量集合,通过所述视频编码器网络中的视频循环卷积神经子网络,确定历史视频特征向量。上述方案中,所述训练模块,用于确定与所述视频信息处理模型的使用环境相匹配的动态噪声阈值;所述训练模块,用于根据所述动态噪声阈值对所述视频图像对应的观众回复信息进行去噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;所述训练模块,用于根据与所述动态噪声阈值相匹配的动态分词策略,对所述观众回复信息进行分词处理;所述训练模块,用于通过所述回复编码器网络中的循环卷积神经子网络,对经过分词处理的所述观众回复信息进行词嵌入处理,形成相应的回复文本特征向量。上述方案中,所述训练模块,用于确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值;所述训练模块,用于根据所述固定噪声阈值对所述视频图像对应的观众回复信息进行去噪处理,并触发与所述固定噪声阈值相匹配的动态分词策略;所述训练模块,用于根据与所述动态噪声阈值相匹配的动态分词策略,对所述观众回复信息进行分词处理;所述训练模块,用于通过所述回复编码器网络中的循环卷积神经子网络,对经过分词处理的所述观众回复信息进行词嵌入处理,形成相应的回复文本特征向量。上述方案中,所述训练模块,用于基于所述历史视频特征向量和所述历史视频对应的概率分布,确定相应的先验分布;所述训练模块,用于基于所述历史视频特征向量、所述回复文本特征向量和所述历史视频对应的概率分布确定相应的后验分布以及条件分布;所述训练模块,用于确定所述先验分布和所述后验分布之间的信息增益散度;所述训练模块,用于通过所述视频信息处理模型中的条件变分自编码器网络,根据所述信息增益散度以及条件分布,对所述先验分布和后验分布进行拟合,以实现通过所述条件变分本文档来自技高网...

【技术保护点】
1.一种视频信息处理方法,其特征在于,所述方法包括:/n获取目标用户的历史视频对应的视频图像;/n基于所述视频图像,通过视频信息处理模型中的视频编码器网络确定历史视频特征向量;/n通过所述视频信息处理模型中的条件变分自编码器网络,根据所述历史视频特征向量确定与所述历史视频对应的隐变量;/n基于所述历史视频对应的隐变量,通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息,以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。/n

【技术特征摘要】
1.一种视频信息处理方法,其特征在于,所述方法包括:
获取目标用户的历史视频对应的视频图像;
基于所述视频图像,通过视频信息处理模型中的视频编码器网络确定历史视频特征向量;
通过所述视频信息处理模型中的条件变分自编码器网络,根据所述历史视频特征向量确定与所述历史视频对应的隐变量;
基于所述历史视频对应的隐变量,通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息,以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。


2.根据权利要求1所述的方法,其特征在于,所述获取目标用户的历史视频对应的视频图像,包括:
当所述目标用户的类型为第一类型时,确定所述目标用户的历史视频中互动次数最多的历史视频;
提取所述互动次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。


3.根据权利要求1所述的方法,其特征在于,所述获取目标用户的历史视频对应的视频图像,包括:
当所述目标用户的类型为第二类型时,确定与所述目标用户的归属领域相同的其他用户的历史视频中收入最高的历史视频;
提取所述收入最高的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。


4.根据权利要求1所述的方法,其特征在于,所述获取目标用户的历史视频对应的视频图像,包括:
当所述目标用户的类型为第三类型时,确定与所述目标用户进行直播互动的其他用户的历史视频中播放次数最多的历史视频;
提取所述播放次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于目标用户的历史视频,确定与所述视频信息处理模型相匹配的训练样本集合;
根据与所述训练样本集合对所述视频信息处理模型进行训练,确定与所述视频信息处理模型中不同网络结构相适配的模型参数,以实现通过所述视频信息处理模型不同网络结构,确定与所述训练样本相匹配的特征向量,并通过所述视频信息处理模型,利用与所述训练样本相匹配的特征向量,确定所述历史视频对应的文本信息。


6.根据权利要求5所述的方法,其特征在于,所述基于目标用户的历史视频,确定与所述视频信息处理模型相匹配的训练样本集合,包括:
获取目标用户的历史视频对应的视频图像和与所述视频图像对应的观众回复信息;
基于所述视频图像,通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量;
基于所述视频图像对应的观众回复信息,通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量;
通过所述视频信息处理模型中的条件变分自编码器网络,根据所述历史视频特征向量和所述回复文本特征向量确定与所述历史视频对应的隐变量;
将所述历史视频特征向量、回复文本特征向量以及与所述历史视频对应的隐变量组成为一组训练样本。


7.根据权利要求6所述的方法,其特征在于,所述基于所述视频图像,通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量,包括:
通过所述视频编码器网络中的视频卷积神经子网络,对所述视频图像进行编码,获得所有图像帧的第一视频向量集合;
对所述历史视频进行解析,获取所述历史视频的时序信息;
基于所述历史视频的时序信息和所述第一视频向量集合,通过所述视频编码器网络中的视频循环卷积神经子网络,确定历史视频特征向量。


8.根据权利要求6所述的方法,其特征在于,所述基于所述视频图像对应的观众回复信息,通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量,包括:
确定与所述视频信息处理模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述视频图像对应的观众回复信息进行去噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
根据与所述动态噪声阈值相匹配的动态分词策略,对所述观...

【专利技术属性】
技术研发人员:魏瑶高俊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1