使用率失真成本作为深度学习的损失函数制造技术

技术编号:31226188 阅读:16 留言:0更新日期:2021-12-08 09:32
一种用于对图像块进行编码的装置,其包括处理器,其将图像块呈现给机器学习模型,从模型获得用于对图像块进行编码的分割决策,并且使用分割决策对图像块进行编码。模型被训练以输出分割决策,用于使用多个训练块的训练数据作为输入对图像块进行编码,训练数据包括:对于训练块,用于对训练块进行编码的分割决策以及对于每个分割决策,从使用分割决策对训练块进行编码而产生的率失真值。模型是使用损失函数来训练的,损失函数将以下组合:基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。系的率失真成本损失函数。系的率失真成本损失函数。

【技术实现步骤摘要】
【国外来华专利技术】使用率失真成本作为深度学习的损失函数

技术介绍

[0001]数字视频流可以使用一系列帧或静止图像来表示视频。数字视频可以用于各种应用,包括例如视频会议、高清视频娱乐、视频广告或用户生成的视频的共享。数字视频流可以包含大量数据并且消耗计算设备的大量计算或通信资源来处理、传输或存储视频数据。已经提出了各种方法来减少视频流中的数据量,包括压缩和其他编码技术。

技术实现思路

[0002]所公开的实施方式的一个方面是使用第一编码器对图像块进行编码的方法。该方法包括将图像块呈现给第一编码器的机器学习模型,其中,机器学习模型被训练以输出分割决策,用于通过使用多个训练块的训练数据作为输入对图像块进行编码,以对包括机器学习模型的机器学习模块进行训练,对于多个训练块中的训练块,训练数据包括由第二编码器用于对训练块进行编码的多个分割决策,并且对于多个分割决策中的每个分割决策,训练数据包括从使用分割决策对训练块进行编码而产生的率失真值。机器学习模型是使用损失函数来训练的,该损失函数将以下的组合:基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。方法还包括从机器学习模型获得用于对图像块进行编码的分割决策,并且在压缩比特流中使用分割决策对图像块进行编码。
[0003]本文中所描述的另一方法包括将图像块呈现给第一编码器的机器学习模型,其中,机器学习模型被训练以输出分割决策,用于用多个训练块的训练数据以及损失函数对图像块进行编码,对于多个训练块中的训练块,训练数据包括由第二编码器用于对训练数据进行编码的多个分割决策,并且对于多个分割决策中的每个分割决策,训练数据包括从哪个使用分割决策对训练块进行编码而产生的率失真值,该损失函数包括以下的组合:基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。方法还包括从机器学习模型获得用于对图像块进行编码的分割决策,并且在压缩比特流中使用分割决策对图像块进行编码。
[0004]根据本文中的技术的装置包括处理器,该处理器配置为接收训练数据,该训练数据包括多个训练块,并且对于多个训练块中的训练块,包括由编码器用于对训练块进行编码的多个分割决策,并且对于多个分割决策中的每个分割决策,包括从使用分割决策对训练块进行编码而产生的率失真值。处理器配置为对机器学习模型进行训练以输出分割决策,用于使用损失函数通过将训练数据输入神经网络对图像块进行编码,该损失函数包括以下的组合:基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。
[0005]另一方面是用于对图像块进行编码的装置。该装置包括处理器,该处理器将图像块呈现给机器学习模型,从机器学习模型获得用于对图像块进行编码的分割决策,并且在压缩比特流中使用分割决策对图像块进行编码。机器学习模型被训练以输出分割决策,用于通过使用多个训练块的训练数据作为输入对图像块进行编码,以对机器学习模型进行训
练,对于多个训练块中的训练块,训练数据包括由编码器用于对训练块进行编码的多个分割决策,并且对于多个分割决策中的每个分割决策,训练数据包括由于使用分割决策对训练块进行编码而产生的率失真值,其中,机器学习模型是使用损失函数来训练的,该损失函数将以下的组合:基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。
[0006]本文中所描述的另一装置包括处理器,该处理器将图像块呈现给机器学习模型。机器学习模型被训练以输出分割决策,用于用多个训练块的训练数据对图像块进行编码,对于多个训练块中的训练块,训练数据包括由编码器用于对训练块进行编码的多个分割决策,并且对于多个分割决策中的每个分割决策,训练数据包括从使用分割决策对训练块进行编码而产生的率失真值。机器学习模型也是用以下的组合来训练的:基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。处理器还从机器学习模型获得用于对图像块进行编码的分割决策,并且在压缩比特流中使用分割决策对图像块进行编码。
[0007]另一方面是用于对图像块进行编码的装置,该装置包括机器学习模型、编码器和处理器。编码器通过对多个训练块中的每个训练块进行多次编码生成训练数据,每次使用多个分割决策中的对应分割决策对相应训练块进行编码。处理器对机器学习模型进行训练以输出分割决策,用于通过使用训练数据作为输入对图形块进行编码,以对机器训练模型进行训练,对于多个训练块中的训练块,训练数据包括由编码器用于对训练块进行编码的多个分割决策,并且对于多个分割决策中的每个分割决策,训练数据包括从使用分割决策对训练块进行编码而产生的率失真值。机器学习模型是使用损失函数来训练的,该损失函数将以下的组合:基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。
[0008]每个方面都可以可选地包括以下一个或多个特征。损失函数可以包括分割损失函数和率失真损失函数的不均匀加权。分割损失函数可以包括二进制交叉熵损失函数。二进制交叉熵损失函数可以将相应权重应用于分割决策,应用于多个分割决策中的分割决策的权重等于由于多个分割决策而产生的最低率失真值归一化的分割决策的率失真值。率失真成本损失函数可以以指数方式处罚预测分割,该预测分割与从第二编码器的穷举分割搜索而产生的训练块的选择分割决策不匹配。机器学习模块可以包括率失真成本估计器,该率失真成本估计器接收来自机器学习模型的预测分割并且估计损失函数的预测率失真值,并且机器学习模型是卷积神经网络模型。对于多个分割决策中的每个分割决策,由于使用分割决策对训练块进行编码而产生的率失真值可以包括用于在没有进一步分割训练块的情况下对训练块进行编码的率失真成本和分裂训练块时产生的成本。多个分割决策可以包括四叉树分割决策。多个分割决策可以包括导致训练块的至少一个非方形分割的分割决策。第二编码器可以包括基于块的编码器。对于多个分割决策中的每个分割决策,率失真成本损失函数可以是指数函数,该指数函数包括由于使用分割决策对训练块进行编码而产生的率失真值与预测率失真值之间的差异。对于多个分割决策中的每个分割决策,相应预测率失真值可以使用率失真成本损失函数中的多个分割决策的最低率失真值进行归一化。率失真成本损失函数可以包括:使用多个分割决策中的分割决策对预测率失真值进行的确定以及由于使用多个分割决策中的分割决策对训练块进行编码而产生的率失真值,其中,分割
决策包括训练块的分裂决策和不分裂决策的组合,并且率失真值包括由于使用分裂决策和不分裂决策的组合对训练块进行编码而产生的率失真值的组合。预测率失真值可以包括表示训练块的不分裂决策的率失真成本的第一项和表示将训练块分成多个子块的训练块的分裂决策的率失真成本的第二项。将训练块分成多个子块的训练块的分裂决策的率失真成本可以包括多个子块中的每个子块的分割决策的对应率失真成本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括:处理器,所述处理器配置为:接收训练数据,所述训练数据包括:多个训练块;以及对于所述多个训练块中的训练块:多个分割决策,所述分割决策由编码器用于对所述训练块进行编码;以及对于所述多个分割决策中的每个分割决策,从使用所述分割决策对所述训练块进行编码而产生的率失真值;以及通过以下对机器学习模型进行训练以输出用于对图像块进行编码的分割决策:使用损失函数将所述训练数据输入神经网络中,所述损失函数包括以下的组合:基于所述分割决策与相应预测分割之间的关系的分割损失函数;以及基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。2.根据权利要求1所述的装置,其中,所述神经网络包括卷积神经网络,并且所述处理器被配置为通过以下对所述机器学习模型进行训练:使用耦合到所述卷积神经网络的率失真成本估计器来确定所述相应预测率失真值。3.根据权利要求1或2所述的装置,其中,所述率失真成本损失函数以指数方式处罚与从所述编码器的穷举分割搜索而产生的训练块的所选择的分割决策不匹配的预测分割。4.根据权利要求1至3中任一项所述的装置,其中,通过将比所述率失真成本损失函数大的权重应用于所述分割损失函数,使用所述损失函数来训练所述机器学习模型。5.根据权利要求1至4中任一项所述的装置,进一步包括:包括所述机器学习模型的第二编码器,所述机器学习模型接收图像块并且确定所述图像块的分割决策,并且所述第二编码器使用所述分割决策对所述图像块进行编码。6.一种方法,包括:将图像块呈现给第一编码器的机器学习模型,其中,所述机器学习模型用以下被训练以输出用于对所述图像块进行编码的分割决策:多个训练块的训练数据,所述训练数据对于所述多个训练块中的训练块包括:多个分割决策,所述分割决策由第二编码器用于对所述训练块进行编码;以及对于所述多个分割决策中的每个分割决策,从使用所述分割决策对所述训练块进行编码而产生的率失真值;以及损失函数,所述损失函数包括以下的组合:基于所述分割决策与相应预测分割之间的关系的分割损失函数;以及基于所述率失真值与相应预测率失真值之间的关系的率失真成本损失函数;从所述机器学习模型获得用于对所述图像块进行编码的所述分割决策;以及在压缩比特流中,使用所述分割决策对所述图像块进行编码。7.根据权利要求6所述的方法,其中,所述损失函数使用所述分割损失函数和所述率失真成本损失函数的不同乘子将所述分割损失函数和所述率失真成本损失函数组合。8.根据权利要求6或7所述的方法,其中,所述分割损失函数包括将相应权重应用于所述分割决策的二进制交叉熵函数,应用于所述多个分割决策中的分割决策的权重等于由从所述多个分割决策而产生的最低率失真值归一化的所述分割决策的所述率失真值。
9.根据权利要求6至8中任一项所述的方法,其中,率失真成本估计器接收来自所述机器学习模型的预测分割并且估计所述损失函数的预测率失真值,并且所述机器学习模型是卷积神经网络模型。10.根据权利要求6至9中任一项所述的方法,其中,对于所述多个分割决策中的每个分割决策,从使用所述分割决策对所述训练块进行编码而产生的所述率失真值包括用于在没有进一步分割所述训练块的情况下对所述训练块进行编码的率失真成本和分裂所述训练块时产生的成本。11.根据权利要求6至10中任一项所述的方法,其中,所述多个分割决策包括一下中的至少一个:四叉树分割决策或导致所述训练块的至少一个非方形分割的分割决策。12.一种装置,包括:处理器,所述处理器:将图像块呈现给机器学习模型,其中,所述机器学习模型用以下被训练以输...

【专利技术属性】
技术研发人员:克劳迪诺
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1