【技术实现步骤摘要】
本申请涉及人工智能领域,尤其涉及一种视频编码方法及其装置。
技术介绍
1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
2、video transformer模型将原始的transformer模型用于视频领域,通过建模时间、空间信息编码视频特征,进而用于下游视频理解任务,如视频-文本检索、视频描述生成、视频问答等。video transformer模型有效适配大规模预训练,现已成为视频理解的基础模型架构。
3、长视频在输入video transformer模型时被切分为大量的视觉token,导致输入token序列长度过长,冗余性较大;这损害了视频编码的效率
...【技术保护点】
1.一种视频编码方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述视频相关的任务为视频检索、视频问答或视频描述生成。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述M个第一视频帧的特征表示融合至所述N个第二视频帧的特征表示,包括:
4.根据权利要求1至3任一所述的方法,其特征在于,所述M个第一视频帧是所述多个视频帧中与其他视频帧相关度最低的M个视频帧。
5.根据权利要求1至4任一所述的方法,其特征在于,所述第一视频帧和所述第二视频帧在所述多个视频帧中相互交错。
6.根据
...【技术特征摘要】
1.一种视频编码方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述视频相关的任务为视频检索、视频问答或视频描述生成。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述m个第一视频帧的特征表示融合至所述n个第二视频帧的特征表示,包括:
4.根据权利要求1至3任一所述的方法,其特征在于,所述m个第一视频帧是所述多个视频帧中与其他视频帧相关度最低的m个视频帧。
5.根据权利要求1至4任一所述的方法,其特征在于,所述第一视频帧和所述第二视频帧在所述多个视频帧中相互交错。
6.根据权利要求1至5任一所述的方法,其特征在于,所述融合为平均池化。
7.根据权利要求1至6任一所述的方法,其特征在于,所述编码器包括第二网络层;所述第一网络层和所述第二网络层为相同或不同的网络层,所述第二网络层包括帧内压缩模块,所述多个视频帧包括第三视频帧,所述第三视频帧包括x个第一图像块和y个第二图像块,所述帧内压缩模块用于将所述x个第一图像块的特征表示融合至所述y个第二图像块的特征表示,得到y个特征表示。
8.根据权利要求7所述的方法,其特征在于,所述将所述x个第一图像块的特征表示融合至所述y个第二图像块的特征表示,包括:
9.根据权利要求7或8所述的方法,其特征在于,所述x个第一图像块是所述第三视频帧中包括的多个图像块中与其他图像块相关度最低的x个图像块。
10.根据权利要求7至9任一所述的方法,其特征在于,所述第一图像块和所述第二图像块在所述第三视频帧中相互交错。
11.一种视频编码装置,其特征在于,所述装置包括:
12.根据权利要求11所述的装置,其特征在于,所述视频相关的任务为视频检索、视频问答或视频描述生成。
13.根据权利要求11或12所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。