当前位置: 首页 > 专利查询>刘秀萍专利>正文

视觉单词和短语共驱动的词袋模型图片分类方法技术

技术编号:25600488 阅读:35 留言:0更新日期:2020-09-11 23:57
本发明专利技术提供的视觉单词和短语共驱动的词袋模型图片分类方法,通过视觉明显性分析方法将图片分为前景区域和后景区域,从两个区域分别提取特征建立各自的视觉特征词典,按一定的权值将二部分的单词直方图聚合起来表示图片,丰富了特征表达子的语义含义。通过引入分层聚类分析将视觉单词短语的聚类过程巧妙的改成树状结构,避免了均值聚类算法初始中心的不良选取带来的一系列问题,同时对图片的整体到部分的解析过程更恰当。提出自适应超球体软分派方法,将图片中视觉单词和短语的空间位置排列关系引入,巧妙的除去了单一单词的歧义问题,分类表达能力大幅提高,图片分类深度更大,准确率更高,分类速度更快,方法鲁棒性更好。

【技术实现步骤摘要】
视觉单词和短语共驱动的词袋模型图片分类方法
本专利技术涉及一种视觉图片分类方法,特别涉及视觉单词和短语共驱动的词袋模型图片分类方法,属于图片分类

技术介绍
随着移动社交的流行和智能终端设备的便携化逐渐普及,数字图片的数量呈现井喷式增长。互联网平台上,微信、微博等每天都有数GB甚至TB的图片产生和分享,著名图片社交应用照片墙每天分享的图片数超过8550万张;从卫星遥感图片到医用显微图片,从交通管理到视频监控方面,无时无刻不在产生数量巨大的图片和视频。当前亟需在如此庞大的图片库中进行高效的图片内容分析、检索和分类的相关技术。图片分类不但能辨别出图片的所属种类信息,还能提供其中所包含的子信息内容甚至情绪表现等,因此对图片的认知可提升到基于语义的层面,这项技术可以让计算机像人一样去看待周围的环境并分析理解,使计算机具有自动识别能力,具有广泛的应用范围,主要包括:一是搜索引擎,截止目前国内外对各种各样的图片、视频检索系统需求强烈,电子商务网站需运用图片分类技术直观检索相同相似产品,数字图书馆在进行图书资源搜索时可运用图片分类技术找到与图书封面类似的图书;二是相册分类,随着可拍照移动设备的普及,使得普通用户产生成千上万的图片,如果不进行分类管理,相册则会杂乱无章;三是图片分析,在对遥感影像图片的分析中,分类技术可实现预警监控,同时对海洋资源开发、国土矿质资源勘查等都有很大用途,在医学领域中诊断仪器设备会产生大量的病理图片,图片分类能够协助医生高效率的查找访问需要的图片;四是机器视觉,图片分类对无人驾驶和机器人的路径规划有重要意义,能够协助智能车辆或机器人对其所处环境进行判定,避开障碍物,行走最优路径,将图片分类用在的无人机上,能够进行地质勘查、农田查害等。图片分类是机器学习和模式识别领域的子问题,聚合了模式识别、计算机视觉、统计学、生物学等学科知识,图片分类可为这些学科的结合研究和具体应用提供现实环境,丰富各方面理论和实践应用的工作进展,因此无论从现实应用层面还是理论研究层面,图片分类都极其重要。从现有技术的相关研究和运用进展来看,图片分类的大致思路是:一是用图片特征来表示图片,二是根据特征去量化表示图片内容,三是设计合适的分类器进行图片分类。依据特征语义的层次表现,可将图片分类语义模型概括为以下二种:一是基于低层语义模型的图片分类,在现有技术的早期图片分类和检索中,图片内容表现直接由图片的颜色形状纹理等属性表述。用颜色矩和边缘方向一致性的矢量来表示图片,采用朴素贝叶斯分类器对旅游照片进行分类,通过聚合颜色纹理特征实现足球视频镜头的分类,将图片划分子块,从中算出空间颜色特征和纹理特征,将二种特征聚合后选择K近邻分类器进行分类。这些方法直接将底层特征往高层语义映射,由于缺乏中间语义的转换过渡,分类的泛化能力不尽人意,在面对训练集以外的样本分类时准确率较低,实际运用价值很低。二是基于中层语义模型的图片分类,结合人类视觉认知,实现底层特征往高层语义的过渡。根据中层语义的不同分为二种:第一种将图片中的局部特征与语义层面的局部概念对应,通过为特征构建中层语义模型,达到分类目的,这类方法吸取了文本分类中词袋模型思想完成分类;第二种是根据人类视觉感知属性对图片内容设计相应全局性概念,如粗糙度、崎岖度、展开度、光滑度等,这些全局统计特性从低层特征按一定模式统计得出,由于模式规则由主观设置,因而泛化能力相对第一种方法明显较差。本专利技术基于中层语义模型的第一种方法,以特征词袋和支持向量机为核心结构进行图片分类。尽管现有技术的图片分类方法取得了一定成效,但它与理想的智能分类存在巨大差距,主要出现的难点为:一是类内图片对象差异,世间万物复杂多样,即使同属一个类别的图片也会因外界条件和自身形态的不同表现各异,性能好的图片分类方法应最大程度克服上述因素的干扰,找出对象最本质的语义特征。在视觉特征词典中适当引入这些因素带来的信息量,让视觉单词短语区分能力更为精细,让计算机具有人类眼和脑的辨别能力;二是类间图片的同义性,将不同类别的内容相似的图片辨别开来是图片分类最主要的难点,类间一些有差别的图片会表现相似的视觉特征,但现实中语义理解层面不允许混淆分类结果,因此要求在图片分类中,从特征提取、语义单词生成、语义辨别中学习识别各类物体。为解决以上问题,构建的视觉特征词典必须由区分能力精准、语义表达切合实际的单词组成。综上,针对现有技术存在的一些缺陷,本专利技术拟解决以下问题:一是现有技术的视觉单词和短语的生成过程中,K均值聚类算法是根据对底层特征的分布分割聚类得到的,特征点与特征点之前按单纯的位置分布决定其相似性,不具备准确的语意,这种方法的缺陷导致视觉单词和短语出现同义性和歧义性问题,而导致在进行映射分派时底层特征和视觉单词和短语出现错位。聚类中无法实现特征的精确匹配,特征词典的区分能力很弱。二是现有技术特征映射时采用硬性分派不易体现特征的多义性,采用软分派不易控制特征与视觉单词和短语的映射范围,无法灵活去保证特征向视觉单词和短语映射的多义性,无法舍弃掉对分类类别相关性贡献不大的视觉虚词,得到的特征词典辨识率不好。三是现有技术词袋模型中表达图片内容的方式忽略了视觉单词和短语间语义相关性,语义相关性的缺失,图片中的单词集合杂乱无章,词袋模型不能表述局部特征,不能刻画特征间的上下文信息,无法获得准确的分类效果。四是现有技术的词袋模型采用SIFT向量单一表示图片,词袋模型的图片特征来源单一,且缺少表述不同内容区域的权重信息,可是图片通常由后景和主题共同表现内容,现有技术无法结合生物学机制探讨图片内容表现的结构因素,没有将图片分为前景和后景进行分类的明显缺点,提出在前景后景二部分中分别构建词袋模型,再聚合起来进行分类。这种方法比较符合人脑看待图片的方式,动态为不同部分的特征分派不同的权值,使得生成的视觉特征词典具有针对性。五是现有技术无法避免均值聚类算法初始中心的不良选取带来的一系列问题,对图片的整体到部分的解析过程不恰当。分派阶段中无法解决特征词典中视觉单词短语的多义映射和含无用信息的视觉单词短语带来的冗余问题,硬分派方法得到的分类结果不理想,图片分类速度很慢。六是现有技术没有融入视觉单词短语的空间结构信息和上下文语义,无法除去单一单词的歧义问题,无法根据图片的空间结构性选择二部分的表述权重,模型的分类表达能力层次较低,图片分类深度更小,准确率较低,分类速度慢,方法鲁棒性不好。
技术实现思路
针对现有技术的不足,本专利技术通过视觉明显性分析方法将图片分为前景区域和后景区域,从这两个区域分别提取特征建立各自的视觉特征词典,按一定的权值将二部分的单词直方图聚合起来表示图片,丰富了特征表达子的语义含义。通过引入分层聚类分析将视觉单词短语的聚类过程巧妙的改成树状结构,较好的避免了均值聚类算法初始中心的不良选取带来的一系列问题,同时对图片的整体到部分的解析过程更恰当。分派阶段中,为解决特征词典中视觉单词短语的多义映射和含无用信息的视觉单词短语带来的冗余问题,提出除去一定数量的视觉虚词并综合考虑图片特征与视觉本文档来自技高网
...

【技术保护点】
1.视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,把一张图片看成一个元素集合,元素集合内的元素是离散的视觉单词和短语组合,分别统计不同的视觉单词和短语在集合中出现的概率,得到对应的频次直方图向量,频次直方图向量就是图片在词袋模型角度的等价表示,最后把频次直方图向量引入分类器中进行训练分类;具体步骤为:/n第一步,前景后景聚合的图片特征提取;前景后景聚合的图片特征提取表达方法以人类视觉注意机制为基础,将图片分为视觉明显区域和非明显性区域二部分,其中视觉明显区域为前景,非明显性区域为后景,前景包含图片中突出的表现内容,后景包含图片的环境因素;/n第二步,视觉特征词袋聚合表达;通过聚类算法将多维空间向量进行聚合,每个聚合中心即一个独立的单词短语,合并后形成视觉特征词典供后续特征映射查找;/n第三步,视觉单词短语生成映射;图片特征分派到视觉特征词典对应单词短语上,在向量空间中通过寻找与图片中特征向量距离最相近的视觉单词和短语,然后分派给对应单词,把每张图片表示成一个K维的单词短语向量,K为之前设定的聚类中心个数;/n第四步,分类器训练分类;将得到的K维向量作为分类器的输入,对分类器进行训练分类,供图片分类。/n...

【技术特征摘要】
1.视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,把一张图片看成一个元素集合,元素集合内的元素是离散的视觉单词和短语组合,分别统计不同的视觉单词和短语在集合中出现的概率,得到对应的频次直方图向量,频次直方图向量就是图片在词袋模型角度的等价表示,最后把频次直方图向量引入分类器中进行训练分类;具体步骤为:
第一步,前景后景聚合的图片特征提取;前景后景聚合的图片特征提取表达方法以人类视觉注意机制为基础,将图片分为视觉明显区域和非明显性区域二部分,其中视觉明显区域为前景,非明显性区域为后景,前景包含图片中突出的表现内容,后景包含图片的环境因素;
第二步,视觉特征词袋聚合表达;通过聚类算法将多维空间向量进行聚合,每个聚合中心即一个独立的单词短语,合并后形成视觉特征词典供后续特征映射查找;
第三步,视觉单词短语生成映射;图片特征分派到视觉特征词典对应单词短语上,在向量空间中通过寻找与图片中特征向量距离最相近的视觉单词和短语,然后分派给对应单词,把每张图片表示成一个K维的单词短语向量,K为之前设定的聚类中心个数;
第四步,分类器训练分类;将得到的K维向量作为分类器的输入,对分类器进行训练分类,供图片分类。


2.根据权利要求1所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,第一步,前景后景聚合的图片特征提取采用基于视觉注意机制的图片特征提取方法,视觉明显区域提取方法为:一是从图片的方向、颜色、亮度三个维度建立图片的9层高斯金字塔,二是在高斯金字塔的每层提取方向、颜色、亮度三个维度的特征,组合成特征金字塔,三是在多尺度空间下逐尺度做差,得到突出目标为中心的特征分布图,四是运用马尔科夫随机场构建二维图片的马尔科夫链,得到图片的最终视觉明显区域区分图。


3.根据权利要求1所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,第二步,视觉特征词袋聚合表达将前景特征和后景特征聚合表述图片内容,将视觉特征词典分为以前景SIFT特征生成的前景特征词典和以后景密集SIFT特征生成的后景特征词典,最后将两种特征词典映射得到的直方图加权聚合进行图片分类判定;具体包括:密集SIFT表达子采样、前景特征词典生成、后景特征词典生成、聚合特征生成。


4.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,密集SIFT表达子采取均匀采样方式,设置像素间隔大小控制采样密度,逐窗口对图片进行特征提取;
间隔提取出特征点后,所有特征点设定同一尺度C,将图片调整到水平0度,以特征点为圆心,以设定的尺度C作为半径画圆,将落在圆内的像素点均匀分为4╳4个不重叠子区域,在子区域内每隔45度划分角度坐标,然后统计每个子区域在每个方向上的角度直方图,生成的特征表达子是128维向量表示;
密集SIFT采取均匀提取特征点方式,采用多尺度提取恢复尺度不变性,大尺度表述图片的整体概貌,小尺度抓取图片的部分细节。


5.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,前景特征词典生成的具体步骤如下:
步骤1,对图片中的前景区域提取SIFT特征,根据聚类方法得到前景对应的视觉特征词典,标记成Aq;
步骤2,对待分类的图片前景内容提取SIFT表达子,将所有生成的SIFT特征集合标记成Bq;
步骤3,把B中所有的特征点按硬性分派方法映射到A中离它距离最近的单词,映射全部完成后得到每张图片对应的视觉单词和短语集合;
步骤4,记录每张图片中所出现的视觉单词和短语个数,获得对应频次直方图,标记成Dq,不作归一化处理。


6.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,密集SIFT采用网格划分方法,将内容划分为I╳J个方格子块,用SIFT表达各子块,后景特征词典生成的具体步骤如下:
步骤一,对每张图片的后景区域按照I╳J划分网格,得到后景子区域;
步骤二,将后景子区域提取密集SIFT表达子集合,利用K均值聚类算法聚类,设定L2个聚类中心,分别记为S1、S2、S3、…、SL2,将所有的中心聚齐即为后景内容对应SIFT的视觉特征词典,标记成Ah;
步骤三,对待分类图片后景内容块分网格块状处理,从子块中提取SIFT表达子,标记成Bh;
步骤四,对Bh中的特征量化处理,根据映射方法将特征映射为Ah中的对应单词;
步骤五,记录每张图片中所出现的视觉单词和短语个数,获得其对应频次直方图,标记成Dh,不作归一化处理。


7.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,聚合特征生成时,前景区域对整张图片内容的表现占比更大,在聚合前景区域和后景区域的特征时,权重分派突出前景区域,相对弱...

【专利技术属性】
技术研发人员:刘秀萍李蕊男
申请(专利权)人:刘秀萍
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1