【技术实现步骤摘要】
数据处理方法、装置、设备以及介质
[0001]本申请涉及人工智能
,尤其涉及一种数据处理方法、装置、设备以及介质。
技术介绍
[0002]视频内容理解可以理解为将视频内容转换为采用自然语句来进行描述的服务,即视频内容描述。视频内容理解可以应用在视频评论、视频字幕以及视频内容总结等领域中,如可以通过视频内容理解自动生成符合语境的评论、字幕等。
[0003]目前的视频处理流程通常分为编码处理和解码处理两个阶段。编码处理是指由编码器对原始视频中的各帧图像进行图像特征的提取;解码处理是指由解码器根据编码器提取的各帧图像的图像特征预测出用于描述该视频内容的文本(该文本可以作为原始视频的评论、字幕等)。通过目前的技术方案虽然实现了视频内容理解,为原始视频自动生成用于描述视频内容的文本,然而,目前的技术方案通过编码器提取到的各帧图像中的图像特征是独立的,并未考虑各帧图像在原始视频中的关联关系,造成最终由解码器生成的文本与原始视频内容之间可能不匹配,进而导致采用文本对视频内容进行描述的准确性过低。
技术实现思路
>[0004]本申请本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取视频数据以及所述视频数据对应的视频配文数据;获取所述视频数据对应的视频表示信息,获取所述视频配文数据对应的文本表示信息;对所述视频表示信息进行时序采样处理,得到所述视频数据对应的视频时序采样信息,将所述视频时序采样信息和所述文本表示信息组合为多模态组合特征;对所述多模态组合特征进行编码处理得到多模态融合编码特征,对所述多模态融合编码特征进行文本解码处理,得到与所述视频数据相关联的视频内容描述文本。2.根据权利要求1所述的方法,其特征在于,所述获取所述视频数据对应的视频表示信息,包括:对所述视频数据进行分帧处理得到视频帧序列,将所述视频帧序列中的各个视频帧划分为多个具有固定尺寸的图像块,得到所述视频帧序列中的每个视频帧所对应的图像块集合;根据所述视频帧序列所包含的视频帧i对应的图像块集合,获取所述视频帧i对应的图像输入特征,将所述图像输入特征输入至目标生成模型中的视觉编码器;i为小于或等于所述视频帧序列对应的视频帧数量的正整数;根据所述视觉编码器对所述图像输入特征进行编码处理,得到所述视频帧i对应的图像表示信息;将所述视频帧序列中的各个视频帧所对应的图像表示信息,组合为所述视频数据对应的视频表示信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述视觉编码器对所述图像输入特征进行编码处理,得到所述视频帧i对应的图像表示信息,包括:根据所述视觉编码器中的注意力编码组件输出所述图像输入特征对应的注意力编码特征,将所述图像输入特征和所述注意力编码特征组合为图像联合特征;获取所述视觉编码器中的多层感知机对应的隐含权重矩阵和偏置向量,基于所述偏置向量以及所述隐含权重矩阵与所述图像联合特征之间的点乘,确定所述视频帧i对应的图像变换特征,将所述图像联合特征和所述图像变换特征组合为所述视频帧i对应的图像表示信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述视觉编码器中的注意力编码组件输出所述图像输入特征对应的注意力编码特征,包括:获取所述视觉编码器中的注意力编码组件对应的变换权重矩阵,基于所述注意力编码组件的变换权重矩阵,将所述图像输入特征变换为第一查询矩阵、第一键矩阵以及第一值矩阵;对所述第一查询矩阵与所述第一键矩阵的转置矩阵进行点乘运算,得到候选权重矩阵,获取所述第一查询矩阵对应的列数量;对所述候选权重矩阵与所述列数量的平方根之间的比值进行归一化处理,得到第一注意力权重矩阵,根据所述第一注意力权重矩阵与所述第一值矩阵之间的点乘,确定所述图像输入特征对应的注意力编码特征。5.根据权利要求1所述的方法,其特征在于,所述获取所述视频配文数据对应的文本表
示信息,包括:将所述视频配文数据划分为D个单位字符,获取所述D个单位字符分别对应的单位词向量;D为正整数;根据所述D个单位字符在所述视频配文数据中的语义信息,获取所述D个单位字符分别对应的文本向量;根据所述D个单位字符在所述视频配文数据中的文本位置,获取所述D个单位字符分别对应的位置向量;将所述单位词向量、所述文本向量以及所述位置向量进行叠加,得到所述视频配文数据对应的文本输入特征;将所述文本输入特征输入至目标生成模型中的文本编码器,通过所述文本编码器对所述文本输入特征进行编码处理,得到所述视频配文数据对应的文本表示信息。6.根据权利要求1所述的方法,其特征在于,所述对所述视频表示信息进行时序采样处理,得到所述视频数据对应的视频时序采样信息,包括:对所述视频表示信息进行位置编码处理,得到所述视频表示信息对应的位置编码信息,将所述视频表示信息和所述位置编码信息组合为视频描述信息;获取与所述文本表示信息具有相同维度的初始时序特征,将所述初始时序特征和所述视频描述信息输入至目标生成模型中的时序采样器;通过所述时序采样器和所述视频描述信息,对所述初始时序特征进行迭代更新,得到所述视频数据对应的视频时序采样信息。7.根据权利要求6所述的方法,其特征在于,所述视频表示信息包括L个图像表示信息,L为正整数;所述对所述视频表示信息进行位置编码处理,得到所述视频表示信息对应的位置编码信息,包括:获取所述L个图像表示信息在所述视频数据中的索引位置,将所述L个图像表示信息的索引位置划分为偶数索引位置和奇数索引位置;对所述视频表示信息中的偶数索引位置进行正弦位置编码,得到所述偶数索引位置对应的正弦编码信息;对所述视频表示信息中的奇数索引位置进行余弦位置编码,得到所述奇数索引位置对应的余弦编码信息;将所述正弦编码信息和所述余弦编码信息,确定为所述视频表示信息对应的位置编码信息。8.根据权利要求6所述的方法,其特征在于,所述目标生成模型中的时序采样器包括N个互注意力组件和N个自注意力组件,所述N个互注意力组件和所述N个自注意力组件之间进行交替连接,N为正整数;所述通过所述时序采样器和所述视频描述信息,对所述初始时序特征进行迭代更新,得到所述视频数据对应的视频时序采样信息,包括:获取所述时序采样器中的第j个互注意力组件的输入特征;j为1时,所述第j个互注意力组件的输入特征包括所述视频描述信息和所述初始时序特征;j不为1时,所述第j个互注意力组件的输入特征包括所述视频描述信息和第j
‑
1个自注意力组件的输出特征;j为小于
或等于N的正整数;获取所述第j个互注意力组件对应的第一权重矩阵、第二权重矩阵以及第三权重矩阵,将所述第一权重矩阵和所述第j
‑
1个自注意力组件的输出特征进行点乘运算,得到第二查询矩阵;将所述第二权重矩阵和所述视频描述信息进行点乘运算,得到第二键矩阵,将所述第三权重矩阵和所述视频描述信息进行点乘运算,得到第二值矩阵;根据所述第二查询矩阵、所述第二键矩阵以及所述第二值矩阵,确定所述第j个互注意力组件的输出特征;将所述第j个互注意力组件的输出特征输入至所述时序采样器中的第j个自注意力组件,通过所述第j个自注意力组件对所述第j个互注意力组件的输出特征进行自注意力编码处理,得到所述第j个自注意力组件的输出特征;将所述时序采样器中的第N个自注意力组件的输出特征,确定为所述视频数据对应的视频时序采样信息。9.根据权利要求1所述的方法,其特征在于,所述对所述多模态组合特征进行编码处理得到多模态融合编码特征,对所述多模态融合编码特征进行文本解码处理,得到与所述视频数据相关联的视频内容描述文本,包括:将所述多模态组合特征输入至目标生成模型中的多模态编码器,通过所述多模态编码器对所述多模态组合特征进行双向特征编码处理,得到多模态融合编码特征;将所述多模态融合编码特征输入至所述目标生成模型中的文本解码器,通过所述文本解码器对所述多模态融合编码特征进行注意力聚合运算,得到注意力聚合特征;对所述注意力聚合特征进行自回归处理得到文本概率输出矩阵,根据所述文本概率输出矩阵确定与所述视频数据相关联的视频内容描述文本。10.一种数据处理方法,其特征在于,包括:获取样本视频以及所述样本视频对应的样本配文数据和样本内容描述文本;通过初始生成模型中的视觉编码器输出所述样本视频对应的样本视频表示信息,...
【专利技术属性】
技术研发人员:项进喜,余剑扬,罗凤,关永航,赵创钿,张军,邵纪春,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。