一种利用深度学习结合哈希编码对图片侵权内容的提取识别技术制造技术

技术编号:18238248 阅读:103 留言:0更新日期:2018-06-17 01:43
本发明专利技术涉及专门适用于利用技术手段实现侵权资源的提取及识别比对,防止图片内容的侵权复制与扩散方法技术领域,特别是涉及保护图片内容的版权问题方法。本发明专利技术采用的技术方法可分为三个步骤:步骤一、图片资源爬取;步骤二、利用深度学习对图片特征提取并用哈希编码对图片进行编码;步骤三、利用二层哈希编码定位技术对图片编码比对识别内容是否为侵权内容。 1

A deep learning and hash coding method to extract and identify the content of image infringement

The invention relates to the technique of using technical means to realize the extraction and recognition comparison of the infringed resources, and to prevent the infringement copy and diffusion of the picture content, especially the copyright protection method involving the protection of the picture content. The technical method used in this invention can be divided into three steps: Step 1, image resource climbing, step two, using depth learning to extract picture features and coding the picture with hash code; step three, using the two layer hash coding positioning technique to compare the content of the picture coding to the content of the infringement. One

【技术实现步骤摘要】
一种利用深度学习结合哈希编码对图片侵权内容的提取识别技术
本专利技术涉及专门适用于利用技术手段实现侵权资源的提取及识别比对,防止图片内容的侵权复制与扩散方法
,特别是涉及保护图片内容的版权问题方法。
技术介绍
随着人们图片权益物化意识的增强,版权纠纷案件迭起。国家版权局发布的《2015年中国网络版权保护年度报告》指出:我国版权归属、交叉授权等方式混乱,权力人间的版权纠纷愈来愈多发,各种乱象亟待行业规范。据统计,2015年国内各省市政府开展的保护知识产权专项行动中,共查处涉及数字版权纠纷的行政案件383件,行政罚款450万元,移送司法机关刑事处理59件。法院受理的著作权案件中,网络著作权纠纷案件高达50%。每年因盗版导致的损失在10亿元左右。基于此类问题,利用技术手段提取网络中图片侵权内容,及时防止侵权内容进一步传播扩散对版权所有人或单位构成所有权侵犯,图片内容的保护显得尤为重要。目前我国对互联网环境下图片权益保护的认识及处置技术的研究还处于初级阶段,国民经济、技术等方面的综合水平较低,使得我国在数字图片权益保护方面具有迫切性和必要性。我国已有的版权监测系统的建设规模与网络规模相比来说还是捉襟见肘,且大部分的版权检测采用传统方法进行数据的采集和分析。局限性体现在采用网页文字爬取方式,根据关键字对网页进行搜索,对网页中的内容无法进行监测,遇到标题与内容不符的情况下,无法自动判定;自行研发的特征值提取算法,精度与效率无法得到有效保障;检测业务被动,需要用户登录至监测平台中,单独提交一份申请监测作品的资料,才能够进行版权监测。当下,深度学习的应用日趋广泛,利用深度学习技术完成大规模数据量的智能化处理分析应用已经十分成熟。相比较目前火热的机器学习用大量数据训练模型替代专家经验的方法,深度学习只需要学习训练数据来修改模型参数即可达到令人满意的处理效果,深度学习网络典型模型为深度卷积网络,其在图像识别领域受到了广泛重视。在对侵权资源的识别提取过程中,利用深度学习的方法对图片的特征向量进行并行式多维度提取,将深层卷积神经网络与LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码策略进行结合,构建新的编码策略对图片多维度特征向量进行编码。采用一种基于哈希编码定位技术的二层对比方法并结合权属信息或权威时间源,将疑似侵权资源的编码与母带的编码进行对比,计算其相似度以判定是否确实侵权及实现篡改部位的提取。再利用机器学习对侵权图片侵权使用的内容类型、用户类型、传播途径进行数据分析,挖掘其扩散特点及受众特点,为防止图片侵权内容进一步传播所制定保护方法提供了可靠地参考来源,提高了网络图属性管理的科学性并加强了权利人合法权益的保护。
技术实现思路
本专利技术的主要目的是为了防止图片侵权内容进一步传播,保护图片版权所属人正当权益不受侵害,提供了一种基于数据驱动的对侵权图片资源的比对、识别、提取技术并对数字侵权传播使用的用户、渠道、传播方式进行分析,为图片的有效监管提供准确的受众分类模型。通过深度学习对图片进行并行式多维度特征提取,按照不同的应用场景对不同维度的特征重要性进行排序;制定哈希编码策略,将特征向量进行编码生成图片唯一身份码,为图片的准确辨识提供科学依据;将图片的编码与权属信息或权威时间源绑定,利用二层哈希编码定位技术对图片的编码进行定位、比对、辨识以实现侵权图片及其篡改部位的准确识别,为图片的合法使用提供技术支持;。该项技术能够大幅地提高对图片侵权内容的取证效率,同时能够实现对侵权图片进行准确识别,比对侵权内容来源,从源头上监管图片内容,防止非法传播,真正从技术层面上为图片内容版权保护提供了有力保障。为了实现上述目的,本专利技术采用的技术方法可分为三个步骤:步骤一、图片资源爬取;步骤二、利用深度学习对图片特征提取并用哈希编码对图片进行编码;步骤三、利用二层哈希编码定位技术对图片编码比对识别内容是否为侵权内容;本专利技术的优点在于:1.本专利技术建立了一套完整地对图片内容进行检索、识别比对、分析地技术方法,为国内关于图片版权保护领域提供了有力的技术保障与技术支持。2.本专利技术将深度学习中的CNN卷积神经网络模型成功与LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码技术相结合,构建了一种新的编码策略对图片特征向量的并行提取。建立了科学的图像特征比对方法,实现了对图片是否涉及侵权的智能识别,并对图片涉及篡改部分内容进行准确提取。3.本专利技术为版权保护相关部门尤其是对图片版权保护相关部门提供了基于事实依据地客观参考,同时为相关部门规范图片版权内容保护提供了政策依据。附图说明图1是本专利技术的整体技术路线示意图;图2是本专利技术关于图片特征提取编码说明图;图3是本专利技术关于图片编码比对识别内容是否侵权的说明图。具体实施方式下面结合附图和实施例对本专利技术进行详细说明。一种利用深度学习结合哈希编码对图片侵权内容的提取识别技术,系统框图如图1所示,具体包括步骤如下:步骤一、在对涉及侵权内容的图片进行比对识别时,需要给定一个样本输入。样本的选取范围可以选定在各大中型门户网站,利用图片爬取技术获取大量图片资源用来识别比对。步骤二、利用深度学习对图片特征提取并用哈希编码对图片进行编码。此步骤的主要基于深度学习CNN卷积神经网络结合哈希编码对涉及图片版权内容进行比对与识别。具体的方法示意图为图2所示。然后对提取到的图片特征用LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码对其编码,类似独一无二的身份证号,被编码的图片也是唯一的。传统的图片编码技术为串行式处理,从网上爬取整个图片后,再对图片进行滤波、提取、编码对比,时间较长,处理速度较慢。本专利技术则提出结合深度学习中的卷积核神经网络对图片(特征向量)进行并行式提取并利用哈希编码对其编码,在爬取图片资源的同时,对图片进行滤波、提取、编码和对比,由此缩短计算时间,克服现有技术处理速度较慢的问题,达到图片快速提取编码的目的。步骤三、在分别将版权图片即原版图片以及网上获取的图片经过特征提取与哈希编码后进行特征比对与识别,首先利用汉明距离计算方法对两组编码进行相似度初筛,得到相似度较高的部分再利用欧氏距离进行进一步的比对识别,设定相似度阈值,到达该阈值的两部分图片特征界定为内容基本一致或涉及侵权。具体方法示意图如图3所示。实施例一该实例实现对侵权内容的识别技术包含三个部分:步骤一、图片资源的获取。根据图片关键词、检索范围、检索资源上传时间在网站中搜索匹配度高的资源。在对涉及图片版权侵权的内容的检索前,面对互联网海量的图片信息,没有目的的检索犹如大海捞针。因此,为实现此次目的首先要对检索的图片内容进行筛选,筛选的条件有涉及图片的内容的关键词、资源检索(爬取)范围限定、资源的上传时间等关键筛选条件。资源检索的主要对象主要为各大中型门户网站,利用爬虫技术对涉及图片版权侵权内容匹配度高的资源进行爬取,在资源的爬取过程中应当建立对一些网站中使用的常用反爬虫策略实现自动判别与破解其限制;步骤二、图片特征提取与哈希编码。该部分运行在python语言环境下,图片的特征提取与编码均在caffe(ConvolutionalArchitectureforFastFeatureEmbedding,caff本文档来自技高网
...
一种利用深度学习结合哈希编码对图片侵权内容的提取识别技术

【技术保护点】
1.本专利技术涉及专门适用于利用技术手段实现侵权资源的提取及识别比对,防止图片内

【技术特征摘要】
1.本发明涉及专门适用于利用技术手段实现侵权资源的提取及识别比对,防止图片内容的侵权复制与扩散方法技术领域,特别是涉及保护图片内容的版权问题方法。本发明采用的技术方法可分为三个步骤:步骤一、图片资源爬取;步骤二、利用深度学习对图片特征提取并用哈希编码对图片进行编码;步骤三、利用二层哈希编码定位技术对图片编码比对识别内容是否为侵权内容。2.根据权利要求1所述的方法,其特征在于:在步骤二中,利用深度学习对图片特征提取并用哈希编码对图片进行编码。此步骤的主要基于深度学习CNN卷积神经网络结合哈希编码对涉及图片版权内容进行比对与识别。具体的方法示意图为图2所示。然后对提取到的图片特征用LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码对其编码,类似独一无二的身份证号,被编码的图片也...

【专利技术属性】
技术研发人员:沈家云王松吴泽锋
申请(专利权)人:北京非斗数据科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1