视觉单词和短语共驱动的词袋模型图片分类方法技术

技术编号：25600488 阅读：35 留言：0更新日期：2020-09-11 23:57

本发明专利技术提供的视觉单词和短语共驱动的词袋模型图片分类方法，通过视觉明显性分析方法将图片分为前景区域和后景区域，从两个区域分别提取特征建立各自的视觉特征词典，按一定的权值将二部分的单词直方图聚合起来表示图片，丰富了特征表达子的语义含义。通过引入分层聚类分析将视觉单词短语的聚类过程巧妙的改成树状结构，避免了均值聚类算法初始中心的不良选取带来的一系列问题，同时对图片的整体到部分的解析过程更恰当。提出自适应超球体软分派方法，将图片中视觉单词和短语的空间位置排列关系引入，巧妙的除去了单一单词的歧义问题，分类表达能力大幅提高，图片分类深度更大，准确率更高，分类速度更快，方法鲁棒性更好。

全部详细技术资料下载

【技术实现步骤摘要】
视觉单词和短语共驱动的词袋模型图片分类方法
本专利技术涉及一种视觉图片分类方法，特别涉及视觉单词和短语共驱动的词袋模型图片分类方法，属于图片分类

技术介绍
随着移动社交的流行和智能终端设备的便携化逐渐普及，数字图片的数量呈现井喷式增长。互联网平台上，微信、微博等每天都有数GB甚至TB的图片产生和分享，著名图片社交应用照片墙每天分享的图片数超过8550万张；从卫星遥感图片到医用显微图片，从交通管理到视频监控方面，无时无刻不在产生数量巨大的图片和视频。当前亟需在如此庞大的图片库中进行高效的图片内容分析、检索和分类的相关技术。图片分类不但能辨别出图片的所属种类信息，还能提供其中所包含的子信息内容甚至情绪表现等，因此对图片的认知可提升到基于语义的层面，这项技术可以让计算机像人一样去看待周围的环境并分析理解，使计算机具有自动识别能力，具有广泛的应用范围，主要包括：一是搜索引擎，截止目前国内外对各种各样的图片、视频检索系统需求强烈，电子商务网站需运用图片分类技术直观检索相同相似产品，数字图书馆在进行图书资源搜索时可运用图片分类技术找到与图书封面类似的图书；二是相册分类，随着可拍照移动设备的普及，使得普通用户产生成千上万的图片，如果不进行分类管理，相册则会杂乱无章；三是图片分析，在对遥感影像图片的分析中，分类技术可实现预警监控，同时对海洋资源开发、国土矿质资源勘查等都有很大用途，在医学领域中诊断仪器设备会产生大量的病理图片，图片分类能够协助医生高效率的查找访问需要的图片；四是机器视觉，图片分类对无人驾驶和机器人的路径规划...

【技术保护点】
1.视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，把一张图片看成一个元素集合，元素集合内的元素是离散的视觉单词和短语组合，分别统计不同的视觉单词和短语在集合中出现的概率，得到对应的频次直方图向量，频次直方图向量就是图片在词袋模型角度的等价表示，最后把频次直方图向量引入分类器中进行训练分类；具体步骤为：/n第一步，前景后景聚合的图片特征提取；前景后景聚合的图片特征提取表达方法以人类视觉注意机制为基础，将图片分为视觉明显区域和非明显性区域二部分，其中视觉明显区域为前景，非明显性区域为后景，前景包含图片中突出的表现内容，后景包含图片的环境因素；/n第二步，视觉特征词袋聚合表达；通过聚类算法将多维空间向量进行聚合，每个聚合中心即一个独立的单词短语，合并后形成视觉特征词典供后续特征映射查找；/n第三步，视觉单词短语生成映射；图片特征分派到视觉特征词典对应单词短语上，在向量空间中通过寻找与图片中特征向量距离最相近的视觉单词和短语，然后分派给对应单词，把每张图片表示成一个K维的单词短语向量，K为之前设定的聚类中心个数；/n第四步，分类器训练分类；将得到的K维向量作为分类器的输入，对分类器进行训练分类，供图片分类。/n...

【技术特征摘要】
1.视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，把一张图片看成一个元素集合，元素集合内的元素是离散的视觉单词和短语组合，分别统计不同的视觉单词和短语在集合中出现的概率，得到对应的频次直方图向量，频次直方图向量就是图片在词袋模型角度的等价表示，最后把频次直方图向量引入分类器中进行训练分类；具体步骤为：
第一步，前景后景聚合的图片特征提取；前景后景聚合的图片特征提取表达方法以人类视觉注意机制为基础，将图片分为视觉明显区域和非明显性区域二部分，其中视觉明显区域为前景，非明显性区域为后景，前景包含图片中突出的表现内容，后景包含图片的环境因素；
第二步，视觉特征词袋聚合表达；通过聚类算法将多维空间向量进行聚合，每个聚合中心即一个独立的单词短语，合并后形成视觉特征词典供后续特征映射查找；
第三步，视觉单词短语生成映射；图片特征分派到视觉特征词典对应单词短语上，在向量空间中通过寻找与图片中特征向量距离最相近的视觉单词和短语，然后分派给对应单词，把每张图片表示成一个K维的单词短语向量，K为之前设定的聚类中心个数；
第四步，分类器训练分类；将得到的K维向量作为分类器的输入，对分类器进行训练分类，供图片分类。

2.根据权利要求1所述的视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，第一步，前景后景聚合的图片特征提取采用基于视觉注意机制的图片特征提取方法，视觉明显区域提取方法为：一是从图片的方向、颜色、亮度三个维度建立图片的9层高斯金字塔，二是在高斯金字塔的每层提取方向、颜色、亮度三个维度的特征，组合成特征金字塔，三是在多尺度空间下逐尺度做差，得到突出目标为中心的特征分布图，四是运用马尔科夫随机场构建二维图片的马尔科夫链，得到图片的最终视觉明显区域区分图。

3.根据权利要求1所述的视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，第二步，视觉特征词袋聚合表达将前景特征和后景特征聚合表述图片内容，将视觉特征词典分为以前景SIFT特征生成的前景特征词典和以后景密集SIFT特征生成的后景特征词典，最后将两种特征词典映射得到的直方图加权聚合进行图片分类判定；具体包括：密集SIFT表达子采样、前景特征词典生成、后景特征词典生成、聚合特征生成。

4.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，密集SIFT表达子采取均匀采样方式，设置像素间隔大小控制采样密度，逐窗口对图片进行特征提取；
间隔提取出特征点后，所有特征点设定同一尺度C，将图片调整到水平0度，以特征点为圆心，以设定的尺度C作为半径画圆，将落在圆内的像素点均匀分为4╳4个不重叠子区域，在子区域内每隔45度划分角度坐标，然后统计每个子区域在每个方向上的角度直方图，生成的特征表达子是128维向量表示；
密集SIFT采取均匀提取特征点方式，采用多尺度提取恢复尺度不变性，大尺度表述图片的整体概貌，小尺度抓取图片的部分细节。

5.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，前景特征词典生成的具体步骤如下：
步骤1，对图片中的前景区域提取SIFT特征，根据聚类方法得到前景对应的视觉特征词典，标记成Aq；
步骤2，对待分类的图片前景内容提取SIFT表达子，将所有生成的SIFT特征集合标记成Bq；
步骤3，把B中所有的特征点按硬性分派方法映射到A中离它距离最近的单词，映射全部完成后得到每张图片对应的视觉单词和短语集合；
步骤4，记录每张图片中所出现的视觉单词和短语个数，获得对应频次直方图，标记成Dq，不作归一化处理。

6.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，密集SIFT采用网格划分方法，将内容划分为I╳J个方格子块，用SIFT表达各子块,后景特征词典生成的具体步骤如下：
步骤一，对每张图片的后景区域按照I╳J划分网格，得到后景子区域；
步骤二，将后景子区域提取密集SIFT表达子集合，利用K均值聚类算法聚类，设定L2个聚类中心，分别记为S1、S2、S3、…、SL2，将所有的中心聚齐即为后景内容对应SIFT的视觉特征词典，标记成Ah；
步骤三，对待分类图片后景内容块分网格块状处理，从子块中提取SIFT表达子，标记成Bh；
步骤四，对Bh中的特征量化处理，根据映射方法将特征映射为Ah中的对应单词；
步骤五，记录每张图片中所出现的视觉单词和短语个数，获得其对应频次直方图，标记成Dh，不作归一化处理。

7.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法，其特征在于，聚合特征生成时，前景区域对整张图片内容的表现占比更大，在聚合前景区域和后景区域的特征时，权重分派突出前景区域，相对弱...

【专利技术属性】
技术研发人员：刘秀萍，李蕊男，
申请(专利权)人：刘秀萍，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人