一种版权图片过滤方法和装置制造方法及图纸

技术编号:20329276 阅读:20 留言:0更新日期:2019-02-13 05:50
本发明专利技术提供了一种版权图片过滤方法和装置,该方法包括:收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;当抓取到新的图片时,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。本发明专利技术能够实现对所有版权图片的过滤,且实现成本较低。

【技术实现步骤摘要】
一种版权图片过滤方法和装置
本专利技术涉及图像识别
,特别涉及一种版权图片过滤方法和装置。
技术介绍
现有的互联网公司的数据大多数都是通过网络爬虫爬取的,网络爬虫爬取的图片有一部分是有版权的图片,有版权的图片是不可以随意使用的,因此,如何准确识别并过滤版权图片是很多公司亟需解决的问题。目前,多数公司是使用人工过滤或者使用规则匹配的方式来过滤版权图片,然而,人工过滤版权图片的方式成本非常高,而使用规则匹配的方法则无法实现对规则之外的版权图片的过滤。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种版权图片过滤方法和装置,能够实现对所有版权图片的过滤,且实现成本较低。为了达到上述目的,本专利技术提供了如下技术方案:一种版权图片过滤方法,该方法包括:收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;当抓取到新的图片时,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。一种版权图片过滤装置,包括:收集单元、学习单元、过滤单元;所述收集单元,用于收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;所述学习单元,用于基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;所述过滤单元,用于抓取新的图片,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。由上面的技术方案可知,本专利技术中,收集大量的版权图片,通过深度学习对收集的版权图片进行训练,从而生成可以识别版权图片的神经网络模型,利用该神经网络模型对新抓取的图片进行版权图片识别和过滤。本专利技术的方法中,基于深度学习方法训练得到的神经网络模型,适用于所有版权图片的识别,与人工过滤版权图片的方法相比,可以降低成本,与规则匹配的方法相比,可以避免漏检规则之外的版权图片。附图说明图1是本专利技术实施例版权图片过滤方法流程图;图2是本专利技术实施例版权图片过滤装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图并据实施例,对本专利技术的技术方案进行详细说明。过滤版权图片的核心问题是图像识别,需要准确识别出图片上的版权商标(logo)。本专利技术中,采用深度学习技术来解决版权图片过滤的问题。深度学习技术最广泛的应用之一就是图片分类技术,但是版权图片识别不能通过简单的图片分类技术解决。因为版权方不同,图片上的版权logo位置,大小、样式均是不确定的,因此,图片分类技术并不能很好的识别版权图片。为了解决上述问题,本专利技术的深度学习中,还可以采用物体检测技术来识别图片中的版权logo,以解决图片分类技术无法识别版权logo的问题。深度学习应用主要是解决分类问题和回归问题。物体检测是在图片分类的基础上增加回归算法,计算物体(例如版权logo)在图片中的位置,并标注出来。下面结合图1对本专利技术的实现方法进行详细说明:参见图1,图1是本专利技术实施例版权图片过滤方法流程图,如图1所示,该方法主要包括以下步骤:步骤101、收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息。为了训练生成可以识别版权图片的神经网络模型,需要有大量的版权图片数据信息作为输入,因此首先要收集大量的版权图片数据信息作为训练数据。训练数据的来源最好的方式是收集真实样本,并通过人工标注解决样本的问题。但是在现实中训练神经网络模型需要大量的样本作为训练数据,其样本数量至少是上万甚至十万级别的,很难通过人工标注方式得到如此多的训练数据。因此,除了人工标注的方法收集训练数据外,还可以采用图片合成技术,将版权logo贴到大量的普通图片上,以此来解决样本问题,而采用图片合成技术得到的样本,其图片类别和版权logo位置信息都是确定的。图片类别表明了图片的分类,例如版权图片类。由此可知,本专利技术中,至少可以通过以下两种途径获得版权图片数据信息:第一种:由人工识别出版权图片,并给出版权图片的图片类别和版权logo位置信息。可以将这些已经由人工识别的版权图片及各版权图片对应的图片类别和版权商标位置信息存储起来作为训练数据。第二种:采用图片合成技术,利用非版权图片和版权logo生成图片类别和版权logo位置信息确定的版权图片。可以将这些利用非版权图片和版权logo合成的版权图片以及各版权图片对应的图片类别和版权商标位置信息存储起来作为训练数据。步骤102、基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型。本专利技术实施例中,可以使用现在最流行的深度学习框架Tensorflow来构建神经网络模型。TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,是目前最流行的深度学习框架。本专利技术中的神经网络模型包括图片分类模型和物体检测模型。因此,构建神经网络模型的过程实际上包括了图片分类模型和物体检测模型的生成过程。在实际应用中,在训练图片分类模型时最好是先进行预训练,即使用已经训练好的图片分类模型作为初始参数,在初始参数的基础上训练自己的图片分类模型,这个过程在业内被称之为Fine-tune。预训练能够大幅度提高版权图片的分类识别效果。本专利技术实施例中,可以预先为图片分类模型配置初始参数,例如用谷歌提供的faster_rcnn_inception_resnet_v2模型作为图片分类模型的初始参数。谷歌提供的faster_rcnn_inception_resnet_v2模型是一个图片分类模型,使用MSCOCO训练集训练,该模型的图片分类准确度比较高。另外,可以采用MaskRCNN技术来构建神经网络莫高兴中的物体检测模型,该技术是目前图像检测领域性能最好的模型,能得到像素级别的检测结果,该模型能够准确的识别图像中的物体并使用框来框住物体。其原理是先对图片进行多层的卷积操作来提取特征,再对特征进行物体框的检测并能对物体进行分隔。由此可知,本步骤中,基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型的方法具体可以为:在所述初始参数的基础上对收集的版权图片数据进行训练得到神经网络模型中的图片分类模型;使用MaskRCNN对收集的版权图片数据进行训练,得到所述神经网络模型中的物体检测模型。需要说明的是,在训练生成神经网络模型时,可以从所有训练数据中随机抽取80%作为训练样本,用来训练出模型,另外20%作为测试样本用来测试模型的效果。由于训练生成神经网络模型的过程中需要大量的计算资源,因此可以使用GPU来对训练样本进行训练。另外,在实际应用中,深度学习模型最大的缺点就是非常容易过拟合,导致对非训练样本以外的数据泛化能力很弱。为了确定是否出现拟合现象,训练神经网络模型时需要关注的参数就是神经网络模型的损失函数loss的值,loss值越小就说明神经网络模型的收敛效果越好,但是如果训练时间太长loss值会持续减小,但是泛化能力逐渐变弱,此时就出现了过拟合现象。为了避免过拟合现象,可以通过控制训练的迭代次数,迭代次数不能过多。比较好的方法是训练过程中按照预设规则确定检查点,例如每迭代预设次数(例如5000次)设置一个检查点,对本文档来自技高网...

【技术保护点】
1.一种版权图片过滤方法,其特征在于,该方法包括:收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;当抓取到新的图片时,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。

【技术特征摘要】
1.一种版权图片过滤方法,其特征在于,该方法包括:收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;当抓取到新的图片时,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型中包括图片分类模型和物体检测模型;预先为所述图片分类模型设置预训练分类模型作为初始参数;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型,包括:在所述初始参数的基础上对收集的版权图片数据进行训练得到神经网络模型中的图片分类模型;使用MaskRCNN对收集的版权图片数据进行训练,得到所述神经网络模型中的物体检测模型。3.根据权利要求1所述的方法,其特征在于,收集版权图片数据信息的方法为:获取经由人工标注了图片类别和版权商标位置信息的版权图片,和/或,利用非版权图片和版权商标生成图片类别和版权商标位置信息确定的版权图片,将得到的版权图片及该版权图片对应的图片类别和版权logo位置信息存储起来。4.根据权利要求1所述的方法,其特征在于,基于深度学习方法对收集的版权图片数据信息进行训练的过程中,确定检查点,并保存在该检查点生成的中间神经网络模型,采用交叉验证的方法对该中间神经网络模型进行评估,根据记录该中间神经网络模型的损失函数loss的值以及对该中间神经网络模型的评估结果确定是否需要终止训练过程,如果是,则将该中间神经网络模型确定为最终生成的用于识别版权图片的神经网络模型,并结束训练过程,否则,继续确定下一个检查点,并执行该检查点生成的中间神经网络模型的保存和评估、以及判断是否需要终止训练过程的操作,直至确定出最终的用于识别版权图片的神经网络模型,训练过程结束。5.根据权利要求4所述的方法,其特征在于,确定检查点,并保存在每个检查点生成的中间神经网络模型的方法为:当参与训练的版权图片数据信息个数为预设迭代次数阈值的整数倍时,确定此时为一个检查点,将在该检查点生成的神经网络模型作为一个中间神经网络模型进行保存。6.根据权利要求1所述的方法,其特征在于,利用所述神经网络模型确定该图片是否是版权图片的方法为:将该图片输入到所述神经网络模型,得到该图片作为版权图片的置信度,如果该置信度值超过预设置信度阈值,则确定该图片是版权图片,否则,确定该图片不是版权图片。7.根据权利要求6所述的方法,其特征在于,得到该图片作为版权图片的置信度时,进一步得到该图片的图片类别和版权商标位置信息;确定该图片是版权图片之后,进一步包括:保存该图片,如果接收到用户对该图片的版权图片确认,则将该图片、该图片的图片类别和版权商标位置信息作为新收集到的版权图片数据信息存储。8.一种版权图片过滤装置,其特征在于,该装置包括:收集单元、学习单元、过滤单元;所述收集单元,用于收集版权图片数据...

【专利技术属性】
技术研发人员:孙洪志
申请(专利权)人:北京奔流网络信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1