基于AI和注意力机制的超高清视频编解码方法和装置制造方法及图纸

技术编号:37502171 阅读:15 留言:0更新日期:2023-05-07 09:38
本申请涉及一种基于AI和注意力机制的超高清视频编解码方法、装置、设备和存储介质,可提升视频传输效率。所述视频编码方法包括:在用户账户浏览视频的过程中,获取待编码视频帧;待编码视频帧在向用户账户的视频解码端传输的参考视频帧之后;确定用户账户对待编码视频帧的账户关注区域;获取账户关注区域相对于参考视频帧中对应区域的运动偏移信息,并对运动偏移信息进行编码,得到偏移信息编码结果;向用户账户的视频解码端发送偏移信息编码结果,以触发视频解码端对偏移信息编码结果进行解码,得到运动偏移信息,并基于已解码的参考视频帧和运动偏移信息,生成待编码视频帧对应的预测视频帧。的预测视频帧。的预测视频帧。

【技术实现步骤摘要】
基于AI和注意力机制的超高清视频编解码方法和装置


[0001]本申请涉及计算机
,特别是涉及一种基于AI和注意力机制的超高清视频编码方法、解码方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着计算机技术发展,超高清视频因具有更高的空间和时间分辨率、更广的色域和更宽的动态范围,而愈发受到关注。其中,超高清视频数据量极大,一张4K图像原始大小为24.3MB,4K未压缩视频的带宽要求是6Gbps,一个超高清摄像头每天产生的原始视频数据大小可达63TB。
[0003]在相关技术中,超高清视频传输多采用OTT模式分发,端到端延迟一般在10s以上,且传输过程中需要完整传输所有的视频画面,对网络带宽要求较高。可见,相关技术仍然存在视频传输效率较为低下的问题,极大地限制了超高清视频的应用。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升视频传输效率的基于AI和注意力机制的超高清视频编码方法、解码方法、装置、计算机设备和计算机可读存储介质。
[0005]第一方面,本申请提供了一种基于AI和注意力机制的超高清视频编码方法,所述方法包括:在用户账户浏览视频的过程中,获取待编码视频帧;所述待编码视频帧在向所述用户账户的视频解码端传输的参考视频帧之后;确定所述用户账户对所述待编码视频帧的账户关注区域;获取所述账户关注区域相对于所述参考视频帧中对应区域的运动偏移信息,并对所述运动偏移信息进行编码,得到偏移信息编码结果;向所述用户账户的视频解码端发送所述偏移信息编码结果,以触发所述视频解码端对所述偏移信息编码结果进行解码,得到所述运动偏移信息,并基于已解码的所述参考视频帧和所述运动偏移信息,生成所述待编码视频帧对应的预测视频帧。
[0006]在其中一个实施例中,所述用户账户的视频解码端配置有眼动仪;所述确定所述用户账户对所述待编码视频帧的账户关注区域,包括:获取所述眼动仪采集到的眼动仪数据;所述眼动仪数据包括所述用户账户浏览所述视频解码后的视频帧时,所述眼动仪采集到的所述用户账户对所述解码后的视频帧的视线注视区域;根据所述眼动仪数据,确定所述用户账户对所述待编码视频帧的账户关注区域。
[0007]在其中一个实施例中,所述对所述运动偏移信息进行编码,得到偏移信息编码结果,包括:基于所述眼动仪数据确定每个账户关注区域的重要度;获取每个重要度对应的压缩率;所述压缩率与所述重要度呈负相关;
根据每个账户关注区域对应的压缩率,对每个账户关注区域对应的运动偏移信息进行编码,得到偏移信息编码结果。
[0008]在其中一个实施例中,所述确定所述用户账户对所述待编码视频帧的账户关注区域,包括:将所述待编码视频帧输入到视频编码模型,由所述视频编码模型基于预设的自注意力机制,确定所述用户账户对所述待编码视频帧中多个图像区域的注意力信息,并根据所述注意力信息,确定所述待编码视频帧中的账户关注区域。
[0009]在其中一个实施例中,所述视频编码模型通过如下步骤训练得到:获取样本用户账户的眼动仪采集的样本眼动仪数据;所述样本眼动仪数据包括所述样本用户账户浏览样本视频时采集到的、所述样本用户账户对所述样本视频的样本视频帧的视线关注区域;将所述样本视频帧的视线关注区域作为所述样本视频帧的训练标签;基于所述训练标签和所述样本视频帧,对预设的注意力模型进行监督训练,并基于训练结果得到所述视频编码模型。
[0010]在其中一个实施例中,在所述向所述用户账户的视频解码端发送所述偏移信息编码结果之后,还包括:在浏览所述视频时,根据当前的视频编码参数,以及所述用户账户的视频解码端当前返回的视频解码参数,获取所述视频对应的多个质量评估信息;根据所述多个质量评估信息与所述待编码视频帧的质量评估标签的差异,确定模型损失值;根据所述模型损失值调整所述视频编码模型的模型参数,以基于模型参数调整后的所述视频编码模型,确定所述用户账户对所述视频其他待编码视频帧的账户关注区域。
[0011]第二方面,本申请提供了一种基于AI和注意力机制的超高清视频解码方法,所述方法包括:在用户账户浏览视频的过程中,接收视频编码端发送的偏移信息编码结果;所述偏移信息编码结果在所述视频编码端确定待编码视频帧中所述用户账户的账户关注区域、并对所述账户关注区域对应的运动偏移信息进行编码后得到;所述待编码视频帧在向所述用户账户的视频解码端传输的参考视频帧之后;所述运动偏移信息为所述账户关注区域相对于所述参考视频帧中对应区域的偏移信息;对所述偏移信息编码结果进行解码,得到所述运动偏移信息;基于已解码的所述参考视频帧和所述运动偏移信息,生成所述待编码视频帧对应的预测视频帧。
[0012]在其中一个实施例中,所述方法还包括:在用户账户浏览视频的过程中,通过眼动仪获取所述用户账户的眼动仪数据,所述眼动仪数据包括所述用户账户对所述预测视频帧的视线注视区域;向所述视频编码端返回所述眼动仪数据,以使所述视频编码端根据所述眼动仪数据,确定所述用户账户对所述视频其他待编码视频帧的账户关注区域。
[0013]第三方面,本申请还提供了一种基于AI和注意力机制的超高清视频编码装置,所述装置包括:
编码视频帧获取模块,用于在用户账户浏览视频的过程中,获取待编码视频帧;所述待编码视频帧在向所述用户账户的视频解码端传输的参考视频帧之后;关注区域确定模块,用于确定所述用户账户对所述待编码视频帧的账户关注区域;编码结果获取模块,用于获取所述账户关注区域相对于所述参考视频帧中对应区域的运动偏移信息,并对所述运动偏移信息进行编码,得到偏移信息编码结果;编码结果发送模块,用于向所述用户账户的视频解码端发送所述偏移信息编码结果,以触发所述视频解码端对所述偏移信息编码结果进行解码,得到所述运动偏移信息,并基于已解码的所述参考视频帧和所述运动偏移信息,生成所述待编码视频帧对应的预测视频帧。
[0014]第四方面,本申请还提供了一种基于AI和注意力机制的超高清视频解码装置,所述装置包括:编码结果接收模块,用于在用户账户浏览视频的过程中,接收视频编码端发送的偏移信息编码结果;所述偏移信息编码结果在所述视频编码端确定待编码视频帧中所述用户账户的账户关注区域、并对所述账户关注区域对应的运动偏移信息进行编码后得到;所述待编码视频帧在向所述用户账户的视频解码端传输的参考视频帧之后;所述运动偏移信息为所述账户关注区域相对于所述参考视频帧中对应区域的偏移信息;偏移信息获取模块,用于对所述偏移信息编码结果进行解码,得到所述运动偏移信息;视频帧解码模块,用于基于已解码的所述参考视频帧和所述运动偏移信息,生成所述待编码视频帧对应的预测视频帧。
[0015]第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的任一种基于AI和注意力机制的超高清视频编码方法或任一种基于AI和注意力机制的超高清视频解码方法。
[0016]第六方面,本申请还提供了一种计算机可读存储介质。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AI和注意力机制的超高清视频编码方法,其特征在于,所述方法包括:在用户账户浏览视频的过程中,获取待编码视频帧;所述待编码视频帧在向所述用户账户的视频解码端传输的参考视频帧之后;确定所述用户账户对所述待编码视频帧的账户关注区域;获取所述账户关注区域相对于所述参考视频帧中对应区域的运动偏移信息,并对所述运动偏移信息进行编码,得到偏移信息编码结果;向所述用户账户的视频解码端发送所述偏移信息编码结果,以触发所述视频解码端对所述偏移信息编码结果进行解码,得到所述运动偏移信息,并基于已解码的所述参考视频帧和所述运动偏移信息,生成所述待编码视频帧对应的预测视频帧。2.根据权利要求1所述的方法,其特征在于,所述用户账户的视频解码端配置有眼动仪;所述确定所述用户账户对所述待编码视频帧的账户关注区域,包括:获取所述眼动仪采集到的眼动仪数据;所述眼动仪数据包括所述用户账户浏览所述视频解码后的视频帧时,所述眼动仪采集到的所述用户账户对所述解码后的视频帧的视线注视区域;根据所述眼动仪数据,确定所述用户账户对所述待编码视频帧的账户关注区域。3.根据权利要求2所述的方法,其特征在于,所述对所述运动偏移信息进行编码,得到偏移信息编码结果,包括:基于所述眼动仪数据确定每个账户关注区域的重要度;获取每个重要度对应的压缩率;所述压缩率与所述重要度呈负相关;根据每个账户关注区域对应的压缩率,对每个账户关注区域对应的运动偏移信息进行编码,得到偏移信息编码结果。4.根据权利要求1

3任一项所述的方法,其特征在于,所述确定所述用户账户对所述待编码视频帧的账户关注区域,包括:将所述待编码视频帧输入到视频编码模型,由所述视频编码模型基于预设的自注意力机制,确定所述用户账户对所述待编码视频帧中多个图像区域的注意力信息,并根据所述注意力信息,确定所述待编码视频帧中的账户关注区域。5.根据权利要求4所述的方法,其特征在于,所述视频编码模型通过如下步骤训练得到:获取样本用户账户的眼动仪采集的样本眼动仪数据;所述样本眼动仪数据包括所述样本用户账户浏览样本视频时采集到的、所述样本用户账户对所述样本视频的样本视频帧的视线关注区域;将所述样本视频帧的视线关注区域作为所述样本视频帧的训练标签;基于所述训练标签和所述样本视频帧,对预设的注意力模型进行监督训练,并基于训练结果得到所述视频编码模型。6.根据权利要求4所述的方法,其特征在于,在所述向所述用户账户的视频解码端发送所述偏移信息编码结果之后,还包括:在浏览所述视频时,根据当前的视频编码参数,以及所述用户账户的视频解码端当前返回的视频解码参数,获取所述视频对应的多个质量评估信息;根据所述多个质量评估信息与所述待编码视频帧的质量评估标签的差异,确定模型损
失值;根据所述模型损失值调整所述视频编码模型的模型参数,以基于模型参数调整后的所述视频编码模型,确定所述用户账户对所述视频其他待编码视频帧的账户关注区域。7.一种基于AI和注意力机制的超...

【专利技术属性】
技术研发人员:冀亨肖枫周楚乔
申请(专利权)人:乔品科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1