一种适宜于视觉大数据的词频直方图计算方法技术

技术编号:13326750 阅读:54 留言:0更新日期:2016-07-11 16:09
本发明专利技术公开了一种适宜于视觉大数据的词频直方图计算方法,包括以下步骤,步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K‑Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图。本发明专利技术采用Map‑Reduce数据处理方法,对BoW模型进行可并行化分析,将BoW模型适用于视觉大数据的分析与处理。

【技术实现步骤摘要】

本专利技术涉及一种适宜于视觉大数据的词频直方图计算方法,属于计算机视觉领域。
技术介绍
计算机视觉领域的词袋模型(BagofvisualWords,BoW)是一种有效的表示视觉对象的方法,如。经典的词袋模型构建分为三步:第一步,提取特征点,利用特征提取算法,从图像中提取视觉词汇向量,这些向量代表的是图像中局部不变的特征点;第二步,将所有的视觉词汇向量集合在一起,利用K-Means聚类算法合并词义相近的视觉词汇,构造一个包含K个视觉单词向量的视觉词典;第三步,统计视觉词典中每个视觉单词向量出现的次数,从而将图像表示成为一个K维数值向量,即该图像的词频直方图。伴随着互联网和社交网络的发展,视觉大数据越来越广泛,数据量的快速增长给经典的视觉词袋模型带来了挑战。由于百万张规模以上图像的处理和分析需要借助于计算机集群或云计算模式,而经典的视觉词袋模型仅适合于一台计算机。近年来Map-Reduce数据处理方法已经广泛的应用于大数据分析与处理,并且已有适合于大数据平台的K-Means聚类算法。通过分析词袋模型的三个步骤,将词袋模型应用于视觉大数据的一个关键问题就是如何解决大数据平台下计算每个视觉对象的词频直方图。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种适宜于视觉大数据的词频直方图计算方法。为了达到上述目的,本专利技术所采用的技术方案是:一种适宜于视觉大数据的词频直方图计算方法,其特征在于:包括以下步骤,步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K-Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];其中,Di为第i个视觉词汇向量,i∈[1,m],m为视觉词汇向量的个数,dim(Di)=v,dim()表示维度,Ck为视觉词典中的第k个视觉单词向量,k∈[1,K],K为视觉单词向量的个数,dim(Ck)=v;步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图;21)读取视觉词典和源数据集,将视觉词典分发到集群的每个Worker点,使每个Worker点都有一份视觉词典的拷贝;将源数据集Map到每个Worker点,使每个Worker点都有一份相互不同的源数据集分片;22)在每个Worker上面分别计算Di到Ck的欧式距离,并比较欧式距离的大小,得到最小欧式距离的索引k;23)对步22中的结果做一个Reduce,统计对应每个图像,Ck出现的次数,得到每个Ck的词频,从而得到对每张图像的词频直方图。2、根据权利要求1所述的一种适宜于视觉大数据的词频直方图计算方法,其特征在于:词频的计算公式为,Fk=Tk/K其中,Fk为Ck的词频,Tk为Ck出现的次数。本专利技术所达到的有益效果:本专利技术通过对经典BoW模型的分析和改进,提出一种适宜于视觉大数据的词频直方图计算方法,采用Map-Reduce数据处理方法,对BoW模型进行可并行化分析,将BoW模型适用于视觉大数据的分析与处理;该方法可用于计算大规模视觉数据的词频直方图,从而将经典BoW模型应用于大规模视觉计算领域;该方法可和大规模机器学习算法组合使用,应用于计算机视觉领域如:视频分类、行为识别和分类。附图说明图1为本专利技术的逻辑框图。图2为具体实施例的流程图。图3为计算视觉词汇向量所属视觉单词向量的逻辑框图。图4为统计词频的逻辑框图。图5为具体实施例的直方图表示。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。如图1所示,一种适宜于视觉大数据的词频直方图计算方法,包括以下步骤:步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K-Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];其中,Di为第i个视觉词汇向量,i∈[1,m],m为视觉词汇向量的个数,dim(Di)=v,dim()表示维度,Ck为视觉词典中的第k个视觉单词向量,k∈[1,K],K为视觉单词向量的个数,dim(Ck)=v。步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图;21)读取视觉词典和源数据集,将视觉词典分发到集群的每个Worker点,使每个Worker点都有一份视觉词典的拷贝;将源数据集Map到每个Worker点,使每个Worker点都有一份相互不同的源数据集分片;22)在每个Worker上面分别计算Di到Ck的欧式距离,并比较欧式距离的大小,得到最小欧式距离的索引k;23)对步22中的结果做一个Reduce,统计对应每个图像,Ck出现的次数,得到每个Ck的词频,从而得到对每张图像的词频直方图;词频的计算公式为,Fk=Tk/K其中,Fk为Ck的词频,Tk为Ck出现的次数。下面以N张图像为例,如图2所示,利用特征提取算法,将图像Ij表示为若干特征点的集合,即若干个视觉词汇向量集合为图像Ij的第l个视觉词汇向量,l∈[1,n],n为图像Ij的视觉词汇向量的个数;定义一个图像集M=[A1,...,Aj,...,AN],表示N张图像的视觉词汇向量集合,即上述的源数据集,j∈[1,N]为图像的id;利用K-Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK]。词频直方图计算方法的详细步骤如下:1、读入图像集M和视觉词典C,将C分发到(Broadcast)集群中的每个Worker点,使得每个Worker点都有一份C;将图像集Map到每个Worker点,每个Worker点收到图像集M的一部分,;假设集群中有W个Worker点,第w个Worker点中含有数据C和Mw,其中 M w = [ A 1 w , A 2 w , ... , A N w ] , ]]> Σ w = 1 W A j w = A j 本文档来自技高网...

【技术保护点】
一种适宜于视觉大数据的词频直方图计算方法,其特征在于:包括以下步骤,步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K‑Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];其中,Di为第i个视觉词汇向量,i∈[1,m],m为视觉词汇向量的个数,dim(Di)=v,dim()表示维度,Ck为视觉词典中的第k个视觉单词向量,k∈[1,K],K为视觉单词向量的个数,dim(Ck)=v;步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图;21)读取视觉词典和源数据集,将视觉词典分发到集群的每个Worker点,使每个Worker点都有一份视觉词典的拷贝;将源数据集Map到每个Worker点,使每个Worker点都有一份相互不同的源数据集分片;22)在每个Worker上面分别计算Di到Ck的欧式距离,并比较欧式距离的大小,得到最小欧式距离的索引k;23)对步22中的结果做一个Reduce,统计对应每个图像,Ck出现的次数,得到每个Ck的词频,从而得到对每张图像的词频直方图。

【技术特征摘要】
1.一种适宜于视觉大数据的词频直方图计算方法,其特征在于:包括以下步骤,
步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在
一起形成源数据集D=[D1,D2,...,Dm],利用K-Means算法对视觉词汇向量进行聚类,生成视
觉词典C=[C1,C2,...,CK];
其中,Di为第i个视觉词汇向量,i∈[1,m],m为视觉词汇向量的个数,dim(Di)=v,dim()
表示维度,Ck为视觉词典中的第k个视觉单词向量,k∈[1,K],K为视觉单词向量的个数,dim
(Ck)=v;
步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图;
21)读取视觉词典和源数据集,将...

【专利技术属性】
技术研发人员:何军薛志云张丹阳
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1