使用率失真成本作为深度学习的损失函数制造技术

技术编号：31226188 阅读：16 留言：0更新日期：2021-12-08 09:32

一种用于对图像块进行编码的装置，其包括处理器，其将图像块呈现给机器学习模型，从模型获得用于对图像块进行编码的分割决策，并且使用分割决策对图像块进行编码。模型被训练以输出分割决策，用于使用多个训练块的训练数据作为输入对图像块进行编码，训练数据包括：对于训练块，用于对训练块进行编码的分割决策以及对于每个分割决策，从使用分割决策对训练块进行编码而产生的率失真值。模型是使用损失函数来训练的，损失函数将以下组合：基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。系的率失真成本损失函数。系的率失真成本损失函数。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用率失真成本作为深度学习的损失函数

技术介绍

[0001]数字视频流可以使用一系列帧或静止图像来表示视频。数字视频可以用于各种应用，包括例如视频会议、高清视频娱乐、视频广告或用户生成的视频的共享。数字视频流可以包含大量数据并且消耗计算设备的大量计算或通信资源来处理、传输或存储视频数据。已经提出了各种方法来减少视频流中的数据量，包括压缩和其他编码技术。

技术实现思路

[0002]所公开的实施方式的一个方面是使用第一编码器对图像块进行编码的方法。该方法包括将图像块呈现给第一编码器的机器学习模型，其中，机器学习模型被训练以输出分割决策，用于通过使用多个训练块的训练数据作为输入对图像块进行编码，以对包括机器学习模型的机器学习模块进行训练，对于多个训练块中的训练块，训练数据包括由第二编码器用于对训练块进行编码的多个分割决策，并且对于多个分割决策中的每个分割决策，训练数据包括从使用分割决策对训练块进行编码而产生的率失真值。机器学习模型是使用损失函数来训练的，该损失函数将以下的组合：基于分割决策与相应预测分割之间的关系的分割损失函数和基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。方法还包括从机器学习模型获得用于对图像块进行编码的分割决策，并且在压缩比特流中使用分割决策对图像块进行编码。
[0003]本文中所描述的另一方法包括将图像块呈现给第一编码器的机器学习模型，其中，机器学习模型被训练以输出分割决策，用于用多个训练块的训练数据以及损失函数对图像块进行编码，对于多个训练块中的训练块，训练数据包括由第二编码器用于对训...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置，包括：处理器，所述处理器配置为：接收训练数据，所述训练数据包括：多个训练块；以及对于所述多个训练块中的训练块：多个分割决策，所述分割决策由编码器用于对所述训练块进行编码；以及对于所述多个分割决策中的每个分割决策，从使用所述分割决策对所述训练块进行编码而产生的率失真值；以及通过以下对机器学习模型进行训练以输出用于对图像块进行编码的分割决策：使用损失函数将所述训练数据输入神经网络中，所述损失函数包括以下的组合：基于所述分割决策与相应预测分割之间的关系的分割损失函数；以及基于率失真值与相应预测率失真值之间的关系的率失真成本损失函数。2.根据权利要求1所述的装置，其中，所述神经网络包括卷积神经网络，并且所述处理器被配置为通过以下对所述机器学习模型进行训练：使用耦合到所述卷积神经网络的率失真成本估计器来确定所述相应预测率失真值。3.根据权利要求1或2所述的装置，其中，所述率失真成本损失函数以指数方式处罚与从所述编码器的穷举分割搜索而产生的训练块的所选择的分割决策不匹配的预测分割。4.根据权利要求1至3中任一项所述的装置，其中，通过将比所述率失真成本损失函数大的权重应用于所述分割损失函数，使用所述损失函数来训练所述机器学习模型。5.根据权利要求1至4中任一项所述的装置，进一步包括：包括所述机器学习模型的第二编码器，所述机器学习模型接收图像块并且确定所述图像块的分割决策，并且所述第二编码器使用所述分割决策对所述图像块进行编码。6.一种方法，包括：将图像块呈现给第一编码器的机器学习模型，其中，所述机器学习模型用以下被训练以输出用于对所述图像块进行编码的分割决策：多个训练块的训练数据，所述训练数据对于所述多个训练块中的训练块包括：多个分割决策，所述分割决策由第二编码器用于对所述训练块进行编码；以及对于所述多个分割决策中的每个分割决策，从使用所述分割决策对所述训练块进行编码而产生的率失真值；以及损失函数，所述损失函数包括以下的组合：基于所述分割决策与相应预测分割之间的关系的分割损失函数；以及基于所述率失真值与相应预测率失真值之间的关系的率失真成本损失函数；从所述机器学习模型获得用于对所述图像块进行编码的所述分割决策；以及在压缩比特流中，使用所述分割决策对所述图像块进行编码。7.根据权利要求6所述的方法，其中，所述损失函数使用所述分割损失函数和所述率失真成本损失函数的不同乘子将所述分割损失函数和所述率失真成本损失函数组合。8.根据权利要求6或7所述的方法，其中，所述分割损失函数包括将相应权重应用于所述分割决策的二进制交叉熵函数，应用于所述多个分割决策中的分割决策的权重等于由从所述多个分割决策而产生的最低率失真值归一化的所述分割决策的所述率失真值。
9.根据权利要求6至8中任一项所述的方法，其中，率失真成本估计器接收来自所述机器学习模型的预测分割并且估计所述损失函数的预测率失真值，并且所述机器学习模型是卷积神经网络模型。10.根据权利要求6至9中任一项所述的方法，其中，对于所述多个分割决策中的每个分割决策，从使用所述分割决策对所述训练块进行编码而产生的所述率失真值包括用于在没有进一步分割所述训练块的情况下对所述训练块进行编码的率失真成本和分裂所述训练块时产生的成本。11.根据权利要求6至10中任一项所述的方法，其中，所述多个分割决策包括一下中的至少一个：四叉树分割决策或导致所述训练块的至少一个非方形分割的分割决策。12.一种装置，包括：处理器，所述处理器：将图像块呈现给机器学习模型，其中，所述机器学习模型用以下被训练以输...

【专利技术属性】
技术研发人员：克劳迪诺，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人