一种海量图像侵权检索方法、系统及其计算机可读存储介质技术方案

技术编号:23704951 阅读:31 留言:0更新日期:2020-04-08 11:11
本发明专利技术提供了一种海量图像侵权检索方法、系统及其计算机可读存储介质,其方法步骤包括:S1生成词袋模型:提取模板图像的SIFT特征点,经聚类处理获取视觉词汇,建立词袋模型;S2制作训练集:计算各视觉词汇的反文档权重,定位出符合预设阀值的SIFT特征点,以对应裁剪模板图像获取原始训练数据;S3训练神经网络:采用步骤S2的原始训练数据,依据综合度量学习和哈希学习方法训练CNN网络,生成二进制特征;S4检索判断:利用步骤S1的词袋模型构建倒排索引系统,遍历待检索图像中各视觉词汇对应的条目,计算二进制特征间的汉明距离,根据预设阈值判断是否匹配,并根据累计匹配给出侵权系数。进而提高侵权图像检索速度,同时保证较高的准确率。

A massive image infringement retrieval method, system and computer readable storage medium

【技术实现步骤摘要】
一种海量图像侵权检索方法、系统及其计算机可读存储介质
本专利技术涉及计算机视觉领域,具体地说,涉及一种基于SIFT和局部二进制特征的图像侵权检索方法、系统及其计算机可读存储介质。
技术介绍
手工局部特征对于图像检索任务至关重要,在以深度学习为代表的全局特征表达出现前占据图像检索的主流方法。局部特征与词袋模型的结合提高了检索的速度和准确率,在图像规模较小的情况下,词袋模型包含较少的视觉词汇,一般采用局部特征聚合得到全局特征的方法,例如VALD;在图像规模较大时,视觉词汇较多,一般采用倒排索引系统,利用视觉词汇的直接匹配作为检索依据。对于侵权特征检索,全局特征表现不佳,一个主要原因是某些侵权类型例如裁剪和拼接会大幅影响全局特征,现阶段主流方法为利用局部特征的精准匹配来筛选侵权图像。为了实现局部特征的精准匹配,现阶段主流方法都是采用几何验证的方法滤除掉错匹配.如专利号:CN201710267385.1,提供了一种图像检索系统,该技术方案主要记载了包括:查询图像样本、提取图像库中的第一局部特征、防误判模块、提取图像库中的第二局部特征、安全控制模块、图像检索和图像安全显示器;本专利技术通过关键词和标记的运用,预先将数据库划分为多个子数据库,检索时先在相关度高的子数据库中进行检索,减少了计算量,提高了运算速度;基于单词词汇包表示图像时,提出了加权表示和第一视觉相似度,减少了时间开销;基于特征组合表示图像时,利用了局部特征之间的空间包含关系,提出将相关的局部特征组合在一起以增强其视觉表达能力;该特征组合不但具有良好的尺度和旋转不变性,而且还能够自然地利用各特征元素之间的相对位置信息进行局部几何校验,剔除可能存在的错误匹配。但上述现有技术受限于较高的计算复杂度,该几何验证只适合小规模数据,无法满足大规模海量数据的精确检索的需求。
技术实现思路
本专利技术的主要目的在于提供一种海量图像侵权检索方法、系统及其计算机可读存储介质,以提高侵权图像检索识别的准确率。为了实现专利技术目的,根据本专利技术的一个方面,提供了一种海量图像侵权检索方法,其步骤包括:S1生成词袋模型:提取模板图像的SIFT特征点,经聚类处理获取视觉词汇,建立词袋模型;S2制作训练集:计算各视觉词汇的反文档权重,定位出符合预设阀值的SIFT特征点,以对应裁剪模板图像获取原始训练数据;S3训练神经网络:采用步骤S2的原始训练数据,依据综合度量学习和哈希学习方法训练CNN网络,生成二进制特征;S4检索判断:利用步骤S1的词袋模型构建倒排索引系统,遍历待检索图像中各视觉词汇对应的条目,计算二进制特征间的汉明距离,根据预设阈值判断是否匹配,并根据累计匹配给出侵权系数。在可能的优选实施方式下,其中步骤S1中,该提取模板图像的SIFT特征点步骤包括:对该模板图像进行保持宽高比缩放处理,以控制尺寸来限制SIFT特征点提取数。在可能的优选实施方式下,其中步骤S1中,该经聚类处理获取视觉词汇步骤包括:对提取的SIFT特征点归集成特征集,并利用AKM聚类算法得到聚类中心,以每一个聚类中心视为一个视觉词汇,建立词袋模型。在可能的优选实施方式下,其中步骤S2中,该视觉词汇的反文档权重计算步骤包括:将包含有K个视觉词汇的词袋模型{c1,c2,...cK}分别进行计算:并选择反文档权重最小的若干词汇。在可能的优选实施方式下,其中步骤S2中,还包括侵权数据生成处理步骤:对根据定位出的SIFT特征点所对应裁剪出的图像块进行异常处理。在可能的优选实施方式下,其中步骤S3中,该度量学习步骤包括:采用三元组损失作为损失函数,使得同一类别图像块输出特征尽量靠近,不同类别输出特征尽量远离处理。在可能的优选实施方式下,其中步骤S3中,该哈希学习步骤包括:图像块x经过度量学习得到的特征f(x),且各类别的所有训练图像块得到的特征经过平均化以及二值化后作为哈希学习的目标输出,即设{x1,x2...xM}为同一类别图像块,则该类别的目标二进制特征为:在可能的优选实施方式下,其中步骤S4中,该构建倒排索引系统步骤包括:在利用词袋模型对图像库中的图像编码,提取其SIFT特征及二进制特征,并根据聚类得到其对应的视觉词汇后,使其与图像编码及二进制特征对应存储。为了实现专利技术目的,根据本专利技术的另一方面,提供了一种海量图像侵权检索系统,用于执行上述海量图像侵权检索方法,其包括:第一数据处理模块:提取模板图像的SIFT特征点,经聚类处理获取视觉单词词汇,建立词袋模型;第二数据处理模块:其与第一处理模块数据连接,以获取该视觉词汇并计算相应的反文档权重,定位出符合预设阀值的SIFT特征点,以对应裁剪模板图像获取原始训练数据第三数据处理模块:其与第二处理模块数据连接,采集该原始训练数据,依据综合度量学习和哈希学习方法训练CNN网络,生成二进制特征;第四数据处理模块:其与第一、三处理模块数据连接,获取词袋模型以构建倒排索引系统,遍历待检索图像中各视觉词汇对应的条目,计算二进制特征间的汉明距离,根据预设阈值判断是否匹配,并根据累计匹配给出侵权系数。为了实现专利技术目的,根据本专利技术的另一方面,还提供了一种计算机可读存储介质,存储有计算机可执行指令,当该计算机可执行指令被处理器执行时,该处理器执行上述海量图像侵权检索方法。与现有技术相比,本专利技术具有如下有益效果:1、本专利技术仅利用较少的训练图像即可以得到较多的训练数据,且训练方式为非监督,使得训练集制作非常容易。2、本专利技术生成的二进制局部特征存储方便,且汉明距离计算速度快,可以提高错匹配筛选速度,进而提高检索速度,同时保证较高的准确率。3、本专利技术具有较强的适应性,可以通过丰富侵权图像块样本制作来模拟实际应用中可能出现的侵权种类,提高了适用性。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的海量图像侵权检索方法及系统的逻辑构架图;图2为本专利技术的海量图像侵权检索方法中步骤3的逻辑构架图;图3为本专利技术的海量图像侵权检索方法及系统的流程示意图;图4为本专利技术的海量图像侵权检索方法的逻辑步骤示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合,这些皆属于本专利技术的揭露及保护范围。同时为了使本领域的技术人员更好的理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护范围。此外还需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“S1”、本文档来自技高网
...

【技术保护点】
1.一种海量图像侵权检索方法,步骤包括:/nS1生成词袋模型:提取模板图像的SIFT特征点,经聚类处理获取视觉词汇,建立词袋模型;/nS2制作训练集:计算各视觉词汇的反文档权重,定位出符合预设阀值的SIFT特征点,以对应裁剪模板图像获取原始训练数据;/nS3训练神经网络:采用步骤S2的原始训练数据,依据综合度量学习和哈希学习方法训练CNN网络,生成二进制特征;/nS4检索判断:利用步骤S1的词袋模型构建倒排索引系统,遍历待检索图像中各视觉词汇对应的条目,计算二进制特征间的汉明距离,根据预设阈值判断是否匹配,并根据累计匹配给出侵权系数。/n

【技术特征摘要】
1.一种海量图像侵权检索方法,步骤包括:
S1生成词袋模型:提取模板图像的SIFT特征点,经聚类处理获取视觉词汇,建立词袋模型;
S2制作训练集:计算各视觉词汇的反文档权重,定位出符合预设阀值的SIFT特征点,以对应裁剪模板图像获取原始训练数据;
S3训练神经网络:采用步骤S2的原始训练数据,依据综合度量学习和哈希学习方法训练CNN网络,生成二进制特征;
S4检索判断:利用步骤S1的词袋模型构建倒排索引系统,遍历待检索图像中各视觉词汇对应的条目,计算二进制特征间的汉明距离,根据预设阈值判断是否匹配,并根据累计匹配给出侵权系数。


2.根据权利要求1所述的海量图像侵权检索方法,其中步骤S1中,所述提取模板图像的SIFT特征点步骤包括:对所述模板图像进行保持宽高比缩放处理,以控制尺寸来限制SIFT特征点提取数。


3.根据权利要求1所述的海量图像侵权检索方法,其中步骤S1中,所述经聚类处理获取视觉词汇步骤包括:对提取的SIFT特征点归集成特征集,并利用AKM聚类算法得到聚类中心,以每一个聚类中心视为一个视觉词汇,建立词袋模型。


4.根据权利要求1所述的海量图像侵权检索方法,其中步骤S2中,所述视觉词汇的反文档权重计算步骤包括:将包含有K个视觉词汇的词袋模型{c1,c2,...cK}分别进行计算:



并选择反文档权重最小的若干词汇。


5.根据权利要求1所述的海量图像侵权检索方法,其中步骤S2中,还包括侵权数据生成处理步骤:对根据定位出的SIFT特征点所对应裁剪出的图像块进行异常处理。


6.根据权利要求5所述的海量图像侵权检索方法,其中步骤S3中,所述度量学习步骤包括:采用三元组损失作为损失函数,...

【专利技术属性】
技术研发人员:朱向军吴敏刘锋吴冠勇
申请(专利权)人:上海冠勇信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1