基于互补特征和类描述的商品图像分类方法技术

技术编号:6148095 阅读:283 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于互补特征和类描述的商品图像分类方法,包括以下步骤。步骤一取分好类的图像作为训练样本;步骤二使用图片批量编辑工具将所有的标记图像类和测试图片进行分辨率压缩;步骤三提取各标记图像类中图片的塔式梯度方向直方图和塔式关键词直方图互补特征,步骤四提取待分类商品图像的塔式梯度方向直方图和塔式关键词直方图特征;步骤五构造各标记图像类的类描述符;步骤六将以上获得的特征向量使用最近邻分类算法进行分类,通过计算待分类商品图像与各标记图像类类描述符之间的距离,将距离最小的图像类作为分类结果。本发明专利技术能充分利用两种互补特征,并使用基于图像-类距离的改进最近邻分类算法,使得分类结果更加精确。

【技术实现步骤摘要】

本专利技术涉及的是一种商品图像自动分类的方法,具体是一种基于互补特征和改进 的图像-类的距离算法的商品图像自动分类算法。
技术介绍
随互联网的普及和发展,电子商务逐渐进入了一个全新的时代,电子商务网站的 数量急剧增长,出现了一批国内外知名的电子商务网站,如Amazon、ehy、淘宝等。电子商 务网站需要通过对在线销售商品进行标注以方便用户进行搜索。目前情况下,这些标注仅 仅说明商品的基本信息(元信息),如商品的名称、产地、尺寸、价格等,难以反映商品的完 整特征。如女士皮鞋是圆头还是尖头,T恤衫是圆领口还是V型领口,休闲鞋鞋带是尼龙 搭扣型还是细鞋带型等;这些特征都是用户可能感兴趣的潜在信息,但因为缺少进一步的 标注,用户只能通过浏览商品图片才能获得这些信息。如果在网站中设置图片分类过滤器, 无疑能方便用户进行浏览。如果通过人工完成这些潜在兴趣信息的标注,对于在商品数量 和品种规模都很大的电子商务网站来说,无疑是非常费时费力的。基于内容的图像分类(content-based image classification)是根据图像的视 觉特征对图像进行语义分类。近几年图像分类研究的焦点是自然图像的场景分类(scene classification)和物体分类(object classification),主要采用有监督学习方法,通 过对底层特征建模和中间语义分析来实现分类。目前研究文献中常用的测试图像数据库 Caltech 101和Caltech 256已经达到101类和256类。与这些库中的自然图像不同,电子 商务网站上提供的商品图像一般是比较理想的图片,具有较少背景干扰,目标比较单一;这 些特点使基于内容的商品图像分类更容易获得理想的分类正确率,为一种新型商品分类方 法提供了可能。
技术实现思路
本专利技术针对以上问题的提出,而研制一种基于互补特征和类描述的商品图像分类 方法。本专利技术采用的技术方案如下一种,其特征在于互补特征的提取及 改进的图像-类的距离计算方法,具体描述如下步骤步骤一、取已分好类的图像作为训练样本;步骤二、提取各标记图像类中图片的塔式梯度方向直方图和塔式关键词直方图互 补特征,其中塔式级数为L(L = 0,1. . . η);步骤三、提取待分类商品图像的塔式梯度方向直方图和塔式关键词直方图特征, 其中塔式级数为L (L = 0,1... η);步骤四、然后计算各图像类的类描述符,即代表各图像类的塔式梯度方向直方图 和塔式关键词直方图特征,其中塔式级数为L ;图像类的类描述符利用下公式求得图像类的类特征描述符为{HGCa),HWCa),}l = 0,1,..., L-I权利要求1.一种,其特征在于互补特征的提取及改 进的图像-类的距离计算方法,具体描述如下步骤步骤一、取已分好类的图像作为训练样本;步骤二、提取各标记图像类中图片的塔式梯度方向直方图和塔式关键词直方图互补特 征,其中塔式级数为L(L = 0,l...n);步骤三、提取待分类商品图像的塔式梯度方向直方图和塔式关键词直方图特征,其中 塔式级数为L (L = 0,1... η);步骤四、然后计算各图像类的类描述符,即代表各图像类的塔式梯度方向直方图和塔 式关键词直方图特征;步骤五、计算待分类商品图像与图像类描述符之间的距离,即分别计算待分类商 品图像与每个图像类之间的塔式梯度方向直方图距离和塔式关键词直方图距离,采用 chi-square距离计算方法,将计算出来的两种距离进行线性加权,将线性加权距离最小的 图像类作为分类结果。2.根据权利要求1所述的分类方法,其特征在于图像类的类描述符利用下公式求得图像类的类特征描述符为{HGC^HWC^HzOa,…,L-IHGCi0 = HGCf I mmd{HGCf ,HGq(l))jHWCin = HWCf I mmdiHWCf ,HWqw)J i1=0,1, ...,L-1,j = 0,1-, Nc其中HGqG),HWq(1)分别表示待分类商品图像的第i级(i = 0,1,…,L-1)塔式梯度 直方图和塔式关键词直方图,MJCy^Z/WC^分别表示图像类中第j幅图像的第i级(1 = 0,1, -,L-1)塔式梯度直方图和塔式关键词直方图;另外,L为塔式分解级数,Nc为该图像 类中含有的图片的总数。3.根据权利要求1或2所述的分类方法,其特征在于在步骤二和步骤四之前还包括使 用图片批量编辑工具将所有的标记图像类和待分类商品图像的分辨率进行压缩的步骤,其 中标记图像类和待分类商品图像压缩的分辨率相同。4.根据权利要求1或2所述的分类方法,其特征在于步骤五中的线性加权系数通过交 叉验证方式获得。全文摘要本专利技术公开了一种,包括以下步骤。步骤一取分好类的图像作为训练样本;步骤二使用图片批量编辑工具将所有的标记图像类和测试图片进行分辨率压缩;步骤三提取各标记图像类中图片的塔式梯度方向直方图和塔式关键词直方图互补特征,步骤四提取待分类商品图像的塔式梯度方向直方图和塔式关键词直方图特征;步骤五构造各标记图像类的类描述符;步骤六将以上获得的特征向量使用最近邻分类算法进行分类,通过计算待分类商品图像与各标记图像类类描述符之间的距离,将距离最小的图像类作为分类结果。本专利技术能充分利用两种互补特征,并使用基于图像-类距离的改进最近邻分类算法,使得分类结果更加精确。文档编号G06K9/66GK102034116SQ20101016634公开日2011年4月27日 申请日期2010年5月7日 优先权日2010年5月7日专利技术者曾洁, 贾世杰, 邹娟 申请人:大连交通大学本文档来自技高网
...

【技术保护点】
一种基于互补特征和类描述的商品图像分类方法,其特征在于互补特征的提取及改进的图像-类的距离计算方法,具体描述如下步骤:步骤一、取已分好类的图像作为训练样本;步骤二、提取各标记图像类中图片的塔式梯度方向直方图和塔式关键词直方图互补特征,其中塔式级数为L(L=0,1...n);步骤三、提取待分类商品图像的塔式梯度方向直方图和塔式关键词直方图特征,其中塔式级数为L(L=0,1...n);步骤四、然后计算各图像类的类描述符,即代表各图像类的塔式梯度方向直方图和塔式关键词直方图特征;步骤五、计算待分类商品图像与图像类描述符之间的距离,即分别计算待分类商品图像与每个图像类之间的塔式梯度方向直方图距离和塔式关键词直方图距离,采用chi-square距离计算方法,将计算出来的两种距离进行线性加权,将线性加权距离最小的图像类作为分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾世杰曾洁邹娟
申请(专利权)人:大连交通大学
类型:发明
国别省市:91[中国|大连]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1