The present invention provides large-scale data driven query face annotation method, including: automatic extraction of semantic context features: information fusion to context information and samples to extract the semantic content of images, including time, place, people, events etc.. The invention will focus on the extraction of character information. According to the semantic information, we can construct the semantic probabilistic database, which can be queried by users. This module studies how to represent and process the query to get the initial query result. The face of active learning based annotation: in order to further improve the accuracy of the query results, this module presents a query driven sample selection strategy to select the face samples untagging returned to the user mark.
【技术实现步骤摘要】
本专利技术属于一种针对大规模人脸数据标注的方法。
技术介绍
毫无疑问,大数据时代已然来临。据统计,图片、视频、音频等多媒体数据已成为大数据最主要的组成部分。其中大约45%的图片和视频涉及人脸,因此,如何有效利用大规模人脸数据成为一个至关重要的问题。人脸标注[1,2]旨在选取少量人脸样本进行标注,生成最有效的人脸训练集,构建人脸模型,从而快速完成对整个人脸数据集的准确标注。人脸标注是人脸识别、搜索/查询等其他相关应用的基础和前提。传统模式下,人脸标注通常以脱机(Offline)模式进行,即人脸标注与人脸查询/搜索等应用是相互分离的过程。它的目标在于通过选取最少量的样本进行标注,以尽快完成对整个人脸数据集的准确标注,从而支持广泛的实际应用。其中,人脸标注的关键问题在于如何选取待标注的人脸样本,从而尽可能的提高整个数据集的标注性能。为了解决这个问题,很多解决方案采取了基于主动学习的框架[3,4,5]。这些传统的方法会选取信息熵最大的样本进行标注,以便尽快完成对整个数据集的标注。参考文献:[1]丁宇新,张逸彬,燕泽权,戴蔚,高德坤,柴光忍。“一种人脸自动标注方法及系”专利号:CN 103218603,2013[2]曹志敏,印奇,姜宇宁。“一种人脸图像的身份标注方法及人脸身份识别方法”专利号:CN 103793697,2014[3]S.Huang,R.Jin,and Z.Zhou,“考虑信息量和代表性的主动学习样本选择策略,”模式分析与机器智能期刊,36卷.1936页–1949页,2014.[4]J.Tang,Z.-J.Zha,D.Tao,and T.-S.Chu ...
【技术保护点】
查询驱动的大规模人脸数据标注方法,其特征在于:具体步骤如下:步骤一、结合上下文的自动语义提取:旨在融合上下文信息和样本自身的特征信息来提取图片的语义信息;步骤二、针对概率数据库的查询表示及处理:根据步骤一得到的语义信息,构建语义概率数据库,用户能够对此数据库进行查询;步骤三、基于主动学习的人脸标注:基于问题‑回答模式的用户界面,采用基于高斯过程分类器的主动学习的方法,并提出查询驱动的样本选择策略,来选取未标注的人脸样本返回给用户进行标注;即:选择对于回答查询最有影响力的样本进行标注,样本的影响力由查询驱动的信息熵来表示;具体如下:(1)假设给定用户查询q,通过高斯过程分类模型和查询处理过程,得到查询结果集用p(rj)表示结果节点rj为真的概率,H(rj)表示结果节点rj的信息熵;给定未标注样本fi,定义查询驱动的信息熵为:Iq(fi)=Σfi⇒tjH(rj)-Efi(H(rj|fi))]]>其中,表示样本fi对结果节点rj有影响,H(rj)表示结果节点rj当前的信息熵,Efi(H(rj|fi))表示当人脸样本fi被标注之后,结果节点rj信息 ...
【技术特征摘要】
1.查询驱动的大规模人脸数据标注方法,其特征在于:具体步骤如下:步骤一、结合上下文的自动语义提取:旨在融合上下文信息和样本自身的特征信息来提取图片的语义信息;步骤二、针对概率数据库的查询表示及处理:根据步骤一得到的语义信息,构建语义概率数据库,用户能够对此数据库进行查询;步骤三、基于主动学习的人脸标注:基于问题-回答模式的用户界面,采用基于高斯过程分类器的主动学习的方法,并提出查询驱动的样本选择策略,来选取未标注的人脸样本返回给用户进行标注;即:选择对于回答查询最有影响力的样本进行标注,样本的影响力由查询驱动的信息熵来表示;具体如下:(1)假设给定用户查询q,通过高斯过程分类模型和查询处理过程,得到查询结果集用p(rj)表示结果节点rj为真的概率,H(rj)表示结果节点rj的信息熵;给定未标注样本fi,定义查询驱动的信息熵为: I q ( f i ) = Σ f i ⇒ t j H ( r j ) - E f i ( H ( r j | f i ) ) ]]>其中,表示样本fi对结果节点rj有影响,H(rj)表示结果节点rj当前的信息熵,Efi(H(rj|fi))表示当人脸样本fi被标注之后,结果节点rj信息熵的期望;查询驱动的信息熵表示待标注样本对给定查询的影响力的大小;(2)对人脸样本进行聚类,得到聚类结果,即人脸样本组其中每个样本组中的人脸都是关于同一个人的,所以以人脸组为单位进行标注;给定一个未标注的人脸组Ck,查询驱动的信息熵表示为; I q ( C k ) = ...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。