基于Token采样的多模态视频字幕生成方法技术

技术编号:37964080 阅读:22 留言:0更新日期:2023-06-30 09:39
本发明专利技术涉及一种基于Token采样的多模态视频字幕生成方法,属于人工智能技术领域,解决了现有技术中延迟过高,计算速率慢的问题。具体包括:对视频中各帧图像进行CNN卷积处理得到处理后的各图像;获取各图像的多个一维图片向量,将每个一维图片向量作为一个Token;将所有Token输入到Transformer中,利用Transformer中的多个Encoder块对Token提取高级语义特征,在特征提取过程中对Token进行剪枝;将最后一个Encoder块输出的特征输入至Transformer中的Decode中进行解码,得到视频中各帧图像对应的文本信息。实现了降低计算开销的目的。销的目的。销的目的。

【技术实现步骤摘要】
基于Token采样的多模态视频字幕生成方法


[0001]本专利技术涉及人工智能
,尤其涉及一种基于Token采样的多模态视频字幕生成方法。

技术介绍

[0002]深度学习最近在解决特定的人工智能问题上取得了巨大的成功,比如在计算机视觉(CV)和自然语言处理(NLP)领域。作为视觉和语言两个维度之间的联系,视频字幕生成是生成描述视频视觉内容的自然语言语句(通常是一个句子)的任务。该任务可以分解为两个子任务,一个是通过透彻的理解对视频进行编码并学习更好的视觉表示,另一个是视频描述生成,它可以将学习到的表示逐字解码为顺序的句子。视觉感知和语言表达是人类智能的两个关键表现,而视频字幕生成则是从人类智能融合视觉和语言的典型范例。视频字幕生成的目的是用自然语言自动描述视频的视觉内容。自动字幕生成的实际应用包括视频检索和做索引,以及通过将视觉信号转化为文本信息,然后通过文字语音转化技术来帮助有视觉障碍的人群。
[0003]在深度学习盛行之前,视频字幕就已经受到了广泛的研究关注。在早期阶段,视频字幕生成方法首先基于人工设定好的特征检测视频中的视觉本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Token采样的多模态视频字幕生成方法,其特征在于,具体包括:对视频中各帧图像进行CNN卷积处理得到处理后的各图像;获取各图像的多个一维图片向量,将每个一维图片向量作为一个Token;将所有Token输入到Transformer中,利用Transformer中的多个Encoder块对Token提取高级语义特征,在特征提取过程中对Token进行剪枝;将最后一个Encoder块输出的特征输入至Transformer中的Decode中进行解码,得到视频中各帧图像对应的文本信息。2.根据权利要求1所述的基于Token采样的多模态视频字幕生成方法,其特征在于,获取各图像的多个一维图片向量,包括:将每个图像分割成多个块,将每块图像的RGB三通道像素值展开为一维向量,在每个一维向量中的首位置处加入该一维向量对应的图像块的位置编码,得到该图像块的一维图片向量;设置0号位置编码的一维图片向量,将0号位置编码的一维图片向量和上述图像的所有图像块的一维图片向量作为该图像的多个一维图片向量。3.根据权利要求2所述的基于Token采样的多模态视频字幕生成方法,其特征在于,所述0号位置编码的一维图片向量中只有位置编码没有像素信息,将所述0号位置编码作为标志位。4.根据权利要求1所述的基于Token采样的多模态视频字幕生成方法,其特征在于,所述在特征提取过程中对Token进行剪枝,包括:计算Encoder块输出的所有Token之间的注意力系数矩阵;根据注意力系数矩阵计算每个Token的显著性得分;将各Token的显著性得分按照由低至高的顺序进行排序,并根据排序后的各Token的显著性得分得到每个Token对应的分布函数;根据各Token的分布函数对Token进行采样。5.根据权利要求4所述的基于Token采样的多模态视频字幕生成方法,其特征在于,所述根据排序后的显著性得分得到每个Token对应的分布函数,包括:对于序列中的某个Token,该Token的分布函数即为该Token的显著性得分与位于该Token之前的所有Token的显著性得分的累加值。6.根据权利要...

【专利技术属性】
技术研发人员:张宝斌高兴宇卫建泽潘博诚
申请(专利权)人:中国科学院微电子研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1