基于计算机系统的图片相似度计算方法及其系统技术方案

技术编号：14061251 阅读：67 留言：0更新日期：2016-11-27 18:09

本发明专利技术涉及数据处理，公开了一种基于计算机系统的图片相似度计算方法及其系统。本发明专利技术中，通过将相应于各视觉词的图片标识列表中的图片标识两两配对来获取至少具有一个相似特征的图片对，并对这些图片对进行相似度计算，可以提高大规模图片间相似度的计算效率，并且该方法适用于分布式计算系统，使得海量图片间相似度的计算成为可能。此外，在获取和合并图片标识对的同时，对相应于各图片标识对的两个图片进行相似度计算，可以进一步提高计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别涉及基于计算机系统的图片相似度计算方法及其系统。
技术介绍
基于内容的图像间相似性计算在许多场景下都有应用，常见的比如图像聚类、图像检索以及基于图像的个性化推荐等。上述场景都涉及到在离线处理阶段，对图库中的每一张图片，计算它与其它图片之间的相似性(一般采用提取局部特征并通过L2距离来衡量)。但是，本专利技术的专利技术人发现，该问题的解决存在几个难点与挑战：1)时间复杂度的问题：对于包含N张图片的图库来说，时间复杂度为O(N2)；随着图库中图片数量的增长，时间复杂度的增长非常快，这对于实际工业应用中是非常不适合的。2)空间复杂度的问题：上述O(N2)的时间复杂度仅存在于数据量较小的情况(即所有图片的特征都能加载到计算机的内存中)。对于海量图片相似性计算，所有提取到的特征无法一次性全部加载进内存中，因此会涉及到大量的数据交换以及磁盘IO(输入输出)的问题，实际的时间复杂度会远大于O(N2)。3)数据结构的问题：因为要求是海量数据集合下，每张图片与其它的图像都计算一次相似度，所以这个问题很难直接使用现有的分布式系统来做并行化处理。
技术实现思路
本专利技术的目的在于提供一种基于计算机系统的图片相似度计算方法及其系统，提高了大规模图片间相似度的计算效率并且适用于分布式系统。为解决上述技术问题，本专利技术的实施方式公开了一种基于计算机系统的图片相似度计算方法，方法包括以下步骤：提取图片的至少一个特征，并将特征量化为视觉词；为每一视觉词建立倒排索引记录，倒排索引记录包含图片标识；获取每一倒排索引记录中的图片标识列表，并将图片标识列表中的图片标...
基于计算机系统的图片相似度计算方法及其系统

【技术保护点】
一种基于计算机系统的图片相似度计算方法，其特征在于，所述方法包括以下步骤：提取图片的至少一个特征，并将所述特征量化为视觉词；为每一视觉词建立倒排索引记录，所述倒排索引记录包含图片标识；获取每一倒排索引记录中的图片标识列表，并将所述图片标识列表中的图片标识两两配对；在所有图片标识对中合并相同的图片标识对；对于经合并的各图片标识对计算相应的两个图片之间的相似度。

【技术特征摘要】
1.一种基于计算机系统的图片相似度计算方法，其特征在于，所述方法包括以下步骤：提取图片的至少一个特征，并将所述特征量化为视觉词；为每一视觉词建立倒排索引记录，所述倒排索引记录包含图片标识；获取每一倒排索引记录中的图片标识列表，并将所述图片标识列表中的图片标识两两配对；在所有图片标识对中合并相同的图片标识对；对于经合并的各图片标识对计算相应的两个图片之间的相似度。2.根据权利要求1所述的基于计算机系统的图片相似度计算方法，其特征在于，每一视觉词的倒排索引记录还包含所述图片标识相应于该视觉词的权重值；所述“获取每一倒排索引记录中的图片标识列表，并将所述图片标识列表中的图片标识两两配对”的步骤中，将各图片标识对中的两个图片标识的权重值相乘，作为各图片标识对相应于各视觉词的权重值；所述“在所有图片标识对中合并相同的图片标识对”的步骤中，在合并相同的图片标识对时，将相同的图片标识对相应于各视觉词的各权重值相加；所述“对于经合并的各图片标识对计算相应的两个图片之间的相似度”的步骤中，对于经合并的各图片标识对，将相加后的各权重值进行归一化处理，以得到相应的两个图片之间的相似度。3.根据权利要求2所述的基于计算机系统的图片相似度计算方法，其特征在于，所述“对于经合并的各图片标识对计算相应的两个图片之间的相似度”的步骤中，使用预先存储的相应于各图片标识的模进行归一化处理。4.根据权利要求1所述的基于计算机系统的图片相似度计算方法，其特征在于，所述“提取图片的至少一个特征，并将所述特征量化为视觉词”的步骤前还包括以下步骤：提取训练样本中的图片的至少一个特征；将从所述训练样本中的图片提取的特征进行聚类，以形成多个聚类中心，并为每个聚类中心设置唯一的视觉词。5.根据权利要求1至4中任一项所述的基于计算机系统的图片相似度计算方法，其特征在于，所述方法在MapReduce框架下实现，在Map阶段实施所述“获取每一倒排索引记录中的图...

【专利技术属性】
技术研发人员：薛晖，猛安，夏雷，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人