基于卷积神经网络的块内容分类方法技术

技术编号:17214628 阅读:33 留言:0更新日期:2018-02-08 01:00
本发明专利技术公开了一种基于卷积神经网络的块内容分类方法,包括:构建数据集,将其内容类型作为训练样本的标签;构建卷积神经网络,将训练样本转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特来做为卷积神经网络的输入,通过训练获得末位比特‑卷积神经网络模型;对输入的N×N的编码块进行预测时,利用末位比特‑卷积神经网络模型预测当前编码块的内容类型,若输出为相机拍摄块,则获得分类结果;若输出为计算机生成块,则利用末位比特‑卷积神经网络模型进行预测,获得相应的计算机生成文本块或计算机生成非文本块的分类结果。该方法可提高内容类型预测的准确度与计算效率,进而减少冗余计算,提高压缩质量。

Block content classification method based on convolution neural network

The invention discloses a method, block classification based on convolutional neural network include: constructing the data set, the content type as the training sample label; construct the convolutional neural network, the training sample will be converted to grayscale, and then each pixel grayscale binary number with eight bits, each bit from bottom pixel for convolutional neural network input, obtain the last bit convolutional neural network model through training; prediction encoding block on the input of the N * N, measuring the content type of the current block using the last bit encoding model convolutional neural network pre, if the output for the camera, then get the classification results; if the output is generated by the computer, bit convolution neural network prediction model, obtain the corresponding computer generated text blocks or computer Classification results of non text blocks. This method can improve the accuracy and efficiency of the content type prediction, and then reduce the redundancy calculation and improve the compression quality.

【技术实现步骤摘要】
基于卷积神经网络的块内容分类方法
本专利技术涉及视频编码
,尤其涉及一种基于卷积神经网络的块内容分类方法。
技术介绍
卷积神经网络作为深度学习算法中的一种,目前已经被广泛应用于图像分类和模式识别领域中。与此同时,高效视频编码(HEVC)扩展延伸的屏幕内容编码(SCC)采用了调色板模式(Palette),帧内块预测模式(IBC)来提高编码效率,这样也不可避免地带来了很高的编码复杂度。预测每个编码单元的内容类型是关键的一步,虽然目前已有一些工作通过低层特征,比如梯度、方差、熵和颜色数量等,可以被用于编码块的分类。然而,相关方法对于编码块内容类型预测的准确度还有待提高。
技术实现思路
本专利技术的目的是提供一种基于卷积神经网络的块内容分类方法,可以提高内容类型预测的准确度与计算效率。本专利技术的目的是通过以下技术方案实现的:一种基于卷积神经网络的块内容分类方法,包括:构建数据集,并将其内容类型作为训练样本的标签;构建卷积神经网络,将训练样本转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特来做为卷积神经网络的输入,通过训练获得末位比特-卷积神经网络模型;对输入的N×N的编码块进行预测时,首先利用末位比特-卷积神经网络模型预测当前编码块的内容类型,若输出为相机拍摄块,则获得分类结果;若输出为计算机生成块,则继续利用末位比特-卷积神经网络模型进行预测,获得相应的计算机生成文本块或计算机生成非文本块的分类结果。由上述本专利技术提供的技术方案可以看出,根据预先训练的卷积神经网络模型,对每个编码单元预测其内容类型,预测结果具有较高的准确度;此外,利用预测结果作为预处理方法,可以很容易的与快速模式选择和码率控制模块结合,来指导编码模式选择和码率控制,以减少冗余计算,提高压缩质量。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的将原始图像的灰度图转换成卷积神经网络的输入格式的示意图;图2为本专利技术实施例提供的基于卷积神经网络的块内容分类方法的示意图;图3为本专利技术实施例提供的不同大小编码块内容类型预测的示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。现有的屏幕内容编码标准中增加了一些新的编码工具,包括调色板模式(Palette),帧内块匹配(IntraBlockCopy,IBC)等等。这些工具显著的提高了压缩质量,同时也大大增加了编码复杂度。因此寻找一种有效的方法,既可以保持压缩质量,又可以节约编码时间,将是一个非常重要和有前景的方法。本专利技术提出的一种基于卷积神经网络的块内容分类方法作为一个预处理方法,可以很容易的与快速模式选择和码率控制模块结合,来解决这个问题。本专利技术实施例提供的一种基于卷积神经网络的块内容分类方法,主要包括如下步骤:步骤1、构建数据集,并将其内容类型作为训练样本的标签。步骤2、构建卷积神经网络,将训练样本转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特来做为卷积神经网络的输入,通过训练获得末位比特-卷积神经网络模型。如图1所示,为将训练样本(即原始图)的灰度图转换为卷积神经网络的输入格式的示意图;图1(a)为RGB模式的原始图转换后的灰度图,图1(b)为转换后的末位比特图。从图1(b)中可以看出:相机拍摄内容和计算机生成内容的末位比特分布有着较高的区分度,相机拍摄内容区域呈现无序雪花状,而计算机生成内容区域则能基本反映原图的纹理。因此通过末位比特图来区分相机拍摄内容和计算机生成内容能降低分类难度,提高分类准确度。本领域技术人员可以理解,图1(a)~图1(b)主要是为了展示灰度图转换为末位比特图后二者的区别,以及末位比特图中相机拍摄内容和计算机生成内容的区别,图中模糊的文字、图形以及各种图像仅为举例并非构成限制,同时模糊的内容也不影响本专利技术的完整性。步骤3、对输入的N×N的编码块进行预测时,首先利用末位比特-卷积神经网络模型预测当前编码块的内容类型,若输出为相机拍摄块,则获得分类结果;若输出为计算机生成块,则继续利用末位比特-卷积神经网络模型进行预测,获得相应的计算机生成文本块或计算机生成非文本块的分类结果。如图2所示,分类预测分为两步,第一步,通过末位比特图区分相机拍摄块和计算机生成块;对于计算机生成块,执行第二步通过其灰度图进一步细分成计算机生成文本块和计算机生成非文本块。具体如下:将当前编码块转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特,获得相应的末尾比特图,再利用末位比特-卷积神经网络模型对末尾比特图的内容类型进行预测;若输出为相机拍摄块,则获得分类结果,终止流程;若输出为计算机生成块,则根据计算机生成块的位置信息从灰度图中提取对应的灰度块,再利用末位比特-卷积神经网络模型对灰度块的内容类型进行预测;输出的分类结果为计算机生成文本块或计算机生成非文本块。本领域技术人员可以理解,如图2所示仅为示意性的给出分类预测的过程,图中所涉及的各种图示仅为举例并非构成限制,同时,各种图示的表示形式也不影响本专利技术的完整性。另外,对于输入的非N×N的编码块,分为如下两种情况:若尺寸大于N×N,则根据其内部包含的所有N×N的编码块的内容类型来预测;如果所有N×N的编码块的内容类型都相同,则将相应的内容类型作为输入的非N×N的编码块的内容类型;否则,将输入的非N×N的编码块的内容类型标记为混合内容块;若尺寸小于N×N,则认为其内容类型与其所在的N×N编码块的内容类型相同。示例性的,可以设N=32。如图3所示,图3左侧的64×64的编码块记为a,其四个32×32的编码块的内容类型不完全相同,则将编码块a标记为混合内容块。图3右侧的左下角32×32的编码块记为b其为相机拍摄块,图3右侧右上方32×32的编码块为计算机生成文本块,其内部16×16的编码块c为计算机生成文本块,其内部8×8的编码块d为计算机生成文本块。当对输入的编码块进行内容分类后,还可以进行编码模式选择,以及码率控制,具体如下:1、编码模式选择。本专利技术实施例中,根据编码块的尺寸及其内容类型进行编码模式选择。如表1所示,若为2N×2N的相机拍摄块,则使用Skip模式(跳过模式);若为N×N、N/2×N/2或者N/4×N/4的相机拍摄块,则使用Intra模式(传统帧内预测模式);若为2N×2N的计算机生成文本块,则使用Skip模式;若为N×N、N/2×N/2或者N/4×N/4的计算机生成文本块,则使用Palette模式(调色板模式);若为2N×2N的计算机生成非文本块,则使用Intra模式;若为N×N的计算机生成非文本块,则使用Intra模式或者Palette模式;若为N/2×N/2或者N/4×N/4的计算机生成非文本块,则本文档来自技高网...
基于卷积神经网络的块内容分类方法

【技术保护点】
一种基于卷积神经网络的块内容分类方法,其特征在于,包括:构建数据集,并将其内容类型作为训练样本的标签;构建卷积神经网络,将训练样本转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特来做为卷积神经网络的输入,通过训练获得末位比特‑卷积神经网络模型;对输入的N×N的编码块进行预测时,首先利用末位比特‑卷积神经网络模型预测当前编码块的内容类型,若输出为相机拍摄块,则获得分类结果;若输出为计算机生成块,则继续利用末位比特‑卷积神经网络模型进行预测,获得相应的计算机生成文本块或计算机生成非文本块的分类结果。

【技术特征摘要】
1.一种基于卷积神经网络的块内容分类方法,其特征在于,包括:构建数据集,并将其内容类型作为训练样本的标签;构建卷积神经网络,将训练样本转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特来做为卷积神经网络的输入,通过训练获得末位比特-卷积神经网络模型;对输入的N×N的编码块进行预测时,首先利用末位比特-卷积神经网络模型预测当前编码块的内容类型,若输出为相机拍摄块,则获得分类结果;若输出为计算机生成块,则继续利用末位比特-卷积神经网络模型进行预测,获得相应的计算机生成文本块或计算机生成非文本块的分类结果。2.根据权利要求1所述的一种基于卷积神经网络的块内容分类方法,其特征在于,利用末位比特-卷积神经网络模型预测当前编码块的内容类型包括:将当前编码块转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特,获得相应的末尾比特图,再利用末位比特-卷积神经网络模型对末尾比特图的内容类型进行预测;若输出为相机拍摄块,则获得分类结果,终止流程;若输出为计算机生成块,则根据计算机生成块的位置信息从灰度图中提取对应的灰度块,再利用末位比特-卷积神经网络模型对灰度块的内容类型进行预测;输出的分类结果为计算机生成文本块或计算机生成非文本块。3.根据权利要求1所述的一种基于卷积神经网络的块内容分类方法,其特征在于,对于输入的非N×N的编码块;若尺寸大于N×N,则根据其内部包含的所有N×N的编码块的内容类型来...

【专利技术属性】
技术研发人员:陈志波叶淑睿
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1