基于主动学习和多标签多示例学习的场景图像标注方法技术

技术编号:12422375 阅读:78 留言:0更新日期:2015-12-02 17:49
本发明专利技术针对场景图像的两个基本特征:(1)场景图像往往包含复杂语义;(2)人工标注大量的图像需要耗费昂贵人力成本,公开了一种基于主动学习和多标签多示例学习的场景图像标注方法,包括:在有标签图像基础上训练初始分类模型;对无标签图像进行标签预测;计算分类模型可信度;选择不确定性最大无标签图像;专家对该图像进行人工标注;更新图像集合;当算法达到要求时停止。本发明专利技术利用主动学习策略,在保证分类模型精确度的同时,大大减少了需要人工标注的场景图像数量,从而降低了标注成本。同时,本发明专利技术把图像转化为多标签多示例数据,使图像复杂语义得到合理表示,提高了图像标注的精确度。

【技术实现步骤摘要】

本专利技术涉及场景图像标注
,特别是涉及一种基于主动学习和多标签多示 例学习的场景图像标注方法。
技术介绍
: 随着信息技术的发展和互联网服务的进步,新闻、社交和商品交易等各类网站得到了 长足的发展,互联网每天都产生海量的场景图片。这些场景图片具有以下两个基本特点。一 方面,单幅场景图像不仅仅反映一个内容,可能涉及多个主题,语义比较复杂。例如,一副关 于街道的图像,可能涉及行人、马路、车辆、树木、天空、建筑物等多个不同的主题。 另一方面,互联网所产生的大量场景图像,不具有能够充分描述图片内容的分类标签。 譬如,用户可能在社交网络上传了一个风景照片,但是照片内容并没有详细的文字描述。对 于这些语义复杂,并且不具备分类标签的海量场景图像,如何利用这些图片,为互联网用户 提供相关的服务,这是场景图像标注的核心任务。场景图像标注的目的是,通过有标签场景 图像的学习,给无标签场景图像赋予精确的分类标签,使它们能够为互联网用户提供服务。 传统的图像标注方法在互联网场景图像标注方面存在一些局限性。首先,传统的 图像标注方法把一幅图像看作单一的向量。如上所述,一副场景图像可能包含若干个主题, 如果把一幅图像转化为单一的向量,可能无法准确描述场景图像的语义,也无法精确对场 景图像进行标记。其次,传统的图像标注方法需要大量的有标签场景图像来学习分类模型。 为了建立高精确度的分类模型,往往需要专家通过人工标注方式,标注相当数量的场景图 像来训练分类模型。人工标注大量的场景图像,需要耗费巨大的人力和物力资源。因此,一 种基于少量有标签图像的高效自动场景图像标注技术亟待提出。
技术实现思路
本专利技术的目的在于解决针对场景图像的两个基本特点,场景图像可能包含多个内 容区域,语义复杂,把它转化为单一向量无法精确表示场景图像主题,以及互联网的大量场 景图片不具备分类标签,标注成本昂贵等问题的一种基于多示例多标记学习和主动学习的 场景图像标注方法。 为了实现上述目的,本专利技术采用了如下的技术方案: ,包括如下步骤, (1) 获取一批无标签的场景图像。随机抽取少量场景图像,通过专家人工标注方式,赋 予这些场景图像分类标签; (2) 把有标签场景图像和无标签场景图像转化为多示例数据,每幅图像看作一个多示 例包,每个区域看成多示例包的一个示例; (3) 把少量有标签场景图像看作训练集,根据场景图像的标签数量,训练若干个初始分 类模型; (4) 利用已建立的分类模型,对样本集中的无标签场景图像进行标注,每个图像可能具 有多个标签; (5) 根据无标签场景图像的标注结果,计算每个分类模型的可信度; (6) 结合分类模型的可信度,从无标签场景图像中挑选一个不确定性最大的图像,并交 给专家对该场景图像进行标注; (7) 把经过专家标注的场景图像从无标签图像数据集中移除,放入有标签场景图像数 据集,并重新训练分类模型; (8) 判断该模型的精确度是否达到用户所要求的精确度,或者迭代轮数是否达到用户 指定的次数,如果没有达到要求则返回(3);否则结束并输出分类模型。 本专利技术利用主动学习策略,在保证分类模型精确度的同时,大大减少了需要人工 标注的场景图像数量,从而降低了标注成本。同时,本专利技术把图像转化为多标签多示例数 据,使图像复杂语义得到合理表示,提高了图像标注的精确度。【附图说明】 图1为本专利技术实施例的训练标注模型的流程图。【具体实施方式】 下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术 而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。 图1为本专利技术实施例的 模型的流程图。如图1所示,本专利技术涉及到的场景图像标注方法包括下述过程: 第一步,获取一批无标签的场景图像。随机抽取少量场景图像,通过专家人工标注方 式,赋予这些场景图像分类标签。由于一副场景图像可能包含不同的内容,涉及多个主题, 因此一幅图像可能具有若干个分类标签。在图像集合中,假设分类标签的最大数目为k。通 过上述步骤,原来的场景图像集合被重新分为两个集合,一个集合包含少量有标签场景图 像,另外一个集合包括剩下的大量无标签场景图像。 第二步,把有标签场景图像和无标签场景图像转化为多示例数据。由于场景图像 可能涉及多个主题,语义复杂,如果把一副场景图像转化为单一的向量,难以准确地描述图 像的复杂语义。因此,需要把场景图像转化为多示例数据。具体来说,可以使用图像识别领 域的经典方法,如Blobworld System等,把图像根据不同的内容切割成若干个区域。然后, 对每个图像区域提取颜色、纹理、形状等特征,把一个图像区域转化为一个示例向量。通过 这种方式,一副图像被切割成了若干个区域。一副图像看作一个多示例包,一个区域看作多 示例包的示例。 第三步,把少量有标签场景图像看作训练集,根据场景图像的k个分类标签,训练 k个初始分类模型。对于每一个分类标签,把具有该标签的图像看作正类数据,把不具有该 标签的图像看作负类数据,训练一个初始的多示例分类模型。 第四步,利用已建立的k个分类模型,对无标签场景图像的标签进行预测。经过k 个分类模型,每一副无标签场景图像将获得k个分类标签。对于第i个分类模型,如果分类 标签的值为1,表示该场景图像包含第i类的图像内容;如果分类标签的值为〇,表示该场景 图像不包含第i类的图像内容。 第五步,根据无标签场景图像的标注结果,计算每个分类模型的可信度。参照直 推式支持向量机(Transductive Support Vector Machine, TSVM)的思想,给定一组独 立同分布的有标签的训练样本和另一组来自同一分布的无标签样本,在样本足够多的情 况下,根据有标签样本中的正标签样本所占比例可相应估计无标签样本中正标签样本的 比例。为此,无标签样本中正标签样本所占比例应与有标签样本中的正标签样本所占的 比例相近。基于这一思想,提出一种分类模型对预测标签可信度的衡量标准,首先利用有 标签多示例包训练A个分类器,再利用得到的A个分类器对无标签多示例包进行分类, 得到其预测标签。假定#示示例空间,?表示标签集空间,给定M个有标签多示例包和% 个无标签多示例包。目标是学习得到目标函数乂其中,;对应一个示例集合,为尤对应的一组标签集合 {j^,h…,r,/},{〇, 1} 2,…,/),这里,λ,表示多示例包中含有示例的个数,7 表示多示例包中的标签个数。在此基础上,第々个分类模型的可信度G可以定义为:上式中,是一个指示函数(indicator function),满足给定条件则其值为1,否 则取值为〇 示第A个分类器中第i个有标签多示例包的标签,/,廣示第^个分类器 中第i个无标签多示例包的标签。€示无标签多示例包在第A当前第1页1 2 本文档来自技高网
...

【技术保护点】
基于主动学习和多标签多示例学习的场景图像标注方法,其特征在于,包括如下步骤,第一步、获取一批无标签的场景图像;随机抽取少量场景图像,通过专家人工标注方式,赋予这些场景图像分类标签,分类标签的最大数目为k,k≥2,将原来的场景图像集合被重新分为两个集合,一个集合包含少量有标签场景图像,另外一个集合包括剩下的大量无标签场景图像;第二步、把有标签场景图像和无标签场景图像转化为多示例数据,每幅图像看作一个多示例包,每个区域看成多示例包的一个示例;第三步、把少量有标签场景图像看作训练集,根据场景图像的标签数量,训练若干个初始分类模型;第四步、利用已建立的分类模型,对样本集中的无标签场景图像进行标注,每个图像可能具有多个标签;第五步、根据无标签场景图像的标注结果,计算每个分类模型的可信度;第六步、结合分类模型的可信度,从无标签场景图像中挑选一个不确定性最大的图像,并交给专家对该场景图像进行标注;第七步、把经过专家标注的场景图像从无标签图像数据集中移除,放入有标签场景图像数据集,并重新训练分类模型;第八步、判断该模型的精确度是否达到用户所要求的精确度,或者迭代轮数是否达到用户指定的次数,如果没有达到要求则返回第三步;否则结束并输出分类模型。...

【技术特征摘要】

【专利技术属性】
技术研发人员:肖燕珊刘波郝志峰李杰龙阮奕邦张丽阳
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1