【技术实现步骤摘要】
一种版权图片过滤方法和装置
本专利技术涉及图像识别
,特别涉及一种版权图片过滤方法和装置。
技术介绍
现有的互联网公司的数据大多数都是通过网络爬虫爬取的,网络爬虫爬取的图片有一部分是有版权的图片,有版权的图片是不可以随意使用的,因此,如何准确识别并过滤版权图片是很多公司亟需解决的问题。目前,多数公司是使用人工过滤或者使用规则匹配的方式来过滤版权图片,然而,人工过滤版权图片的方式成本非常高,而使用规则匹配的方法则无法实现对规则之外的版权图片的过滤。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种版权图片过滤方法和装置,能够实现对所有版权图片的过滤,且实现成本较低。为了达到上述目的,本专利技术提供了如下技术方案:一种版权图片过滤方法,该方法包括:收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;当抓取到新的图片时,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。一种版权图片过滤装置,包括:收集单元、学习单元、过滤单元;所述收集单元,用于收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;所述学习单元,用于基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;所述过滤单元,用于抓取新的图片,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。由上面的技术方案可知,本专利技术中,收集大量的版权图片,通过深度学习对收集的版权图片进行训练,从而生成可以 ...
【技术保护点】
1.一种版权图片过滤方法,其特征在于,该方法包括:收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;当抓取到新的图片时,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。
【技术特征摘要】
1.一种版权图片过滤方法,其特征在于,该方法包括:收集版权图片数据信息,所述版权图片数据信息包括版权图片、图片类别和版权商标位置信息;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型;当抓取到新的图片时,利用所述神经网络模型确定该图片是否是版权图片,是则过滤掉版权图片。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型中包括图片分类模型和物体检测模型;预先为所述图片分类模型设置预训练分类模型作为初始参数;基于深度学习方法对收集的版权图片数据信息进行训练生成用于识别版权图片的神经网络模型,包括:在所述初始参数的基础上对收集的版权图片数据进行训练得到神经网络模型中的图片分类模型;使用MaskRCNN对收集的版权图片数据进行训练,得到所述神经网络模型中的物体检测模型。3.根据权利要求1所述的方法,其特征在于,收集版权图片数据信息的方法为:获取经由人工标注了图片类别和版权商标位置信息的版权图片,和/或,利用非版权图片和版权商标生成图片类别和版权商标位置信息确定的版权图片,将得到的版权图片及该版权图片对应的图片类别和版权logo位置信息存储起来。4.根据权利要求1所述的方法,其特征在于,基于深度学习方法对收集的版权图片数据信息进行训练的过程中,确定检查点,并保存在该检查点生成的中间神经网络模型,采用交叉验证的方法对该中间神经网络模型进行评估,根据记录该中间神经网络模型的损失函数loss的值以及对该中间神经网络模型的评估结果确定是否需要终止训练过程,如果是,则将该中间神经网络模型确定为最终生成的用于识别版权图片的神经网络模型,并结束训练过程,否则,继续确定下一个检查点,并执行该检查点生成的中间神经网络模型的保存和评估、以及判断是否需要终止训练过程的操作,直至确定出最终的用于识别版权图片的神经网络模型,训练过程结束。5.根据权利要求4所述的方法,其特征在于,确定检查点,并保存在每个检查点生成的中间神经网络模型的方法为:当参与训练的版权图片数据信息个数为预设迭代次数阈值的整数倍时,确定此时为一个检查点,将在该检查点生成的神经网络模型作为一个中间神经网络模型进行保存。6.根据权利要求1所述的方法,其特征在于,利用所述神经网络模型确定该图片是否是版权图片的方法为:将该图片输入到所述神经网络模型,得到该图片作为版权图片的置信度,如果该置信度值超过预设置信度阈值,则确定该图片是版权图片,否则,确定该图片不是版权图片。7.根据权利要求6所述的方法,其特征在于,得到该图片作为版权图片的置信度时,进一步得到该图片的图片类别和版权商标位置信息;确定该图片是版权图片之后,进一步包括:保存该图片,如果接收到用户对该图片的版权图片确认,则将该图片、该图片的图片类别和版权商标位置信息作为新收集到的版权图片数据信息存储。8.一种版权图片过滤装置,其特征在于,该装置包括:收集单元、学习单元、过滤单元;所述收集单元,用于收集版权图片数据...
【专利技术属性】
技术研发人员:孙洪志,
申请(专利权)人:北京奔流网络信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。