基于多标签学习的图像标注方法、终端设备及存储介质技术

技术编号:18942035 阅读:19 留言:0更新日期:2018-09-15 11:23
本发明专利技术涉及一种基于多标签学习的图像标注方法、终端设备及存储介质,在该方法中,包括以下步骤:S100:提取实例的所有标签,通过标签传播算法计算多标签训练集中每个实例对应的每个标签的标签重要性程度;S200:根据标签重要性程度对多标签训练集进行重新采样,得到训练子集;S300:计算训练子集的类属属性,根据类属属性进行分类。本发明专利技术针对图像标注领域的多义性和海量图像等问题,通过多标签学习来对图像进行标记,通过利用训练样例隐含的相对标签重要性程度的信息来构建更有效的类属属性,通过该方法,不同的标签能够构建出与之对应的更有效的类属属性,在类属属性上构建该标签的分类模型,能够取得更好的图像分类效果。

Image labeling method, terminal equipment and storage medium based on multi label learning

The invention relates to an image annotation method, a terminal device and a storage medium based on multi-label learning. In the method, the following steps are included: S100: extracting all labels of an instance, calculating the label importance of each label corresponding to each instance in the multi-label training set through the label propagation algorithm; S200: according to the label; Signature importance degree resamples the multi-label training set to get the training subset; S300: calculates the class attributes of the training subset and classifies them according to the class attributes. Aiming at the problems of ambiguity and mass image in the field of image annotation, the invention marks the image by multi-label learning, and constructs more effective generic attributes by utilizing the information of relative label importance implied by training samples. By this method, different labels can be constructed more effectively corresponding to them. The classification model of the tag is constructed based on the generic attributes of the tag, which can achieve better image classification effect.

【技术实现步骤摘要】
基于多标签学习的图像标注方法、终端设备及存储介质
本专利技术涉及机器学习
,尤其涉及一种基于多标签学习的图像标注方法、终端设备及存储介质。
技术介绍
随着社会的发展,科技化进一步的提高,每天都有海量的数字图像产生并传播,要在如此大规模的图像数据上提供相关的服务,一个最核心也是最困难的任务是让计算机理解图像的语义,而图像标注则是其中的关键技术。图像标注,又称图像自动标注,是指计算机系统根据图像的视觉内容自动底将图像包含的概念标记与之关联的过程,它是基于内容的图像检索的重要领域之一。现如今虽然图像标注领域的研究已经取得了很多成果,待但随着时代的发展与研究的深入,仍有一些问题亟待解决,多义性和大规模性是其中最重要的两个。在传统的监督学习中,一个示例只与一个标签相关联,代表其唯一所属的类别,然而这种标签的唯一性不能满足图像标记的问题,因为一幅图像通常会包含多个语义内容,因而同时具有多个类别的标记,例如为一幅图像可以包括一个或多个语义的概念,比如包括“人”,“草”,“天空”和“日落”;因此亟需一种能够准确标注图像语义的图像标注方法。
技术实现思路
针对图像标注领域的多义性和海量图像等问题,本专利技术提供一种基于多标签学习的图像标注方法、终端设备及存储介质,利用训练样例隐含的相对标签重要性程度的信息来构建更有效的类属属性,进而在类属属性上构建该标签的分类模型。具体方案如下:一种基于多标签学习的图像标注方法,包括以下步骤:S100:提取实例的所有标签,通过标签传播算法计算多标签训练集中每个实例对应的每个标签的标签重要性程度;S200:根据标签重要性程度对多标签训练集进行重新采样,得到训练子集;S300:计算训练子集的类属属性,根据类属属性进行分类。进一步的,步骤S100具体包括:S101:参数设定:设Y={y1,y2,...,yL}为标签的集合,x=Rd为实例的域;设D={(xi,Yi)|1≤i≤N}为多标签训练集,包含N个实例,其中xi∈x是一个d维属性向量,是实例xi具备的标签集合;设为多标签训练集D中的实例(xi,Yi)中的xi对应的标签yl的标签重要性程度,其中yl∈Y,设y0为标签重要性程度阈值所对应的虚拟标签,t(xi)为标签重要性程度阈值,则如果则yl是xi相关标签,即yl∈Yi,否则,yl不是xi的相关标签,即所述标签重要性程度满足以下条件:条件一:条件二:条件三:S102:设表示实例之间的关联矩阵,其中元素wij的计算公式如下:其中,σ是相似度计算的参数,固定设置为1;S103:设M是所述关联矩阵的对角矩阵,M矩阵中对角线上的元素M(i,i)等于W矩阵第i行的和,其余元素为0;构造矩阵S=M-1/2WM-1/2;构造矩阵Φ=[φ]N×(L+1),其中:其中τ∈(0,1)为虚拟标签y0对应的比例参数;S104:构造矩阵F=[fil]N×(L+1):F(t)=αSF(t-1)+(1-α)Φ其中,参数α∈(0,1)为比例参数;S105:设F(0)=Φ,通过变换和运算,得到递归序列{F(t)}收敛于F*:F*=(1-α)(I-αS)-1ΦS106:基于F*,定义训练集D的每个示例的标签重要性程度如下:进一步的,步骤S200具体包括:S201:设定l=1,i=1;S202:判定是否满足l≤L,如果满足,进入S203,否则,结束;S203:Dl=D;S204:判定是否满足i≤N,如果满足,进入S205,否则,进入S215;S205:设定为空集(NULL);S206:判断是否满足yl∈Y,如果满足,进入S207,否则,进入S208;S207:计算S208:对中的元素进行降序排序;S209:判断中排在第一个的元素是否为如果是,进入S210,否则,进入S214;S210:设定Pl为实例Dl中的正实例集,Nl为实例Dl中的负实例集,判断是否同时满足|Pl|≤|Nl|且xi>0,如果满足,进入S211,否则进入S212;S211:Dl=Dl∪xi;S212:判断是否同时满足|Pl|>|Nl|且xi<0,如果满足,进入S213,否则,进入S214;S213:Dl=Dl∪xi;S214:设定i=i+1,返回S204;S215:设定l=l+1,返回S202。进一步的,步骤S300中所述类属属性的计算方法为通过属性变换方法来计算,所述属性变换方法为基于训练子集Dl分别在正实例集和负实例集两种情况下执行k-means算法,然后通过检测训练数据子集Dl的实例与聚类中心之间的距离,来构造类属属性。进一步的,步骤S300具体包括:S301:分别对正实例集Pl和负实例集Nl进行k-means均值聚类,设置聚类个数c的计算公式为:其中,r∈(0,1)是一个控制聚类的数目的比例参数;S302:设定类属属性为实例与聚类中心之间的距离,其中d(·,·)表示两个实例之间的欧氏距离;设定聚类中心为通过则每个xi的属性映射函数计算yl的类属属性,所述属性映射函数的计算公式为:S303:将训练数据子集Dl中的所有实例进行映射,得到映射后的实例Bl的集合:Bl={(φl(xi),Yi(l))|(xi,Yi)∈Dl}其中,当yl∈Yi时,Yi(l)=+1,否则,Yi(l)=-1;S304:根据实例Bl建立标签yl的二分类模型fl。一种基于多标签学习的图像标注终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。本专利技术采用如上技术方案,针对图像标注领域的多义性和海量图像等问题,通过多标签学习来对图像进行标记,通过利用训练样例隐含的相对标签重要性程度的信息来构建更有效的类属属性,通过该方法,不同的标签能够构建出与之对应的更有效的类属属性,在类属属性上构建该标签的分类模型,能够取得更好的图像分类效果。附图说明图1所示为本专利技术实施例一的流程示意图。图2所示为本专利技术实施例一的步骤S200的流程示意图。具体实施方式为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。现结合附图和具体实施方式对本专利技术进一步说明。实施例一:本专利技术实施例一提供了一种基于多标签学习的图像标注方法,多标签学习的目的是定义一个分类模型fl:x→R(l=1,2,...,L)。fl值越大意味着实例越可能具备yl标签。排序函数rank(·,·)可以从函数f(·)中转化得到:对于任意的yk∈Y,yj∈Y(k≠j),若fk(xi)>fj(xi),那么rank(xi,yk)<rank(xi,yj)。如果给定一个阈值σ,我们可以基于f(·)定义分类器h:x→2y,对于一个实例xi∈x,若fk(xi)>σ,那么yj∈h(xi),否则如图1所示,其为本专利技术实施例一所述的基于多标签学习的图像标注方法的流程示意图,所述方法可包括以下本文档来自技高网...

【技术保护点】
1.一种基于多标签学习的图像标注方法,其特征在于:包括以下步骤:S100:提取实例的所有标签,通过标签传播算法计算多标签训练集中每个实例对应的每个标签的标签重要性程度;S200:根据标签重要性程度对多标签训练集进行重新采样,得到训练子集;S300:计算训练子集的类属属性,根据类属属性进行分类。

【技术特征摘要】
1.一种基于多标签学习的图像标注方法,其特征在于:包括以下步骤:S100:提取实例的所有标签,通过标签传播算法计算多标签训练集中每个实例对应的每个标签的标签重要性程度;S200:根据标签重要性程度对多标签训练集进行重新采样,得到训练子集;S300:计算训练子集的类属属性,根据类属属性进行分类。2.根据权利要求1所述的基于多标签学习的图像标注方法,其特征在于:步骤S100具体包括:S101:参数设定:设Y={y1,y2,...,yL}为标签的集合,x=Rd为实例的域;设D={(xi,Yi)|1≤i≤N}为多标签训练集,包含N个实例,其中xi∈x是一个d维属性向量,是实例xi具备的标签集合;设为多标签训练集D中的实例(xi,Yi)中的xi对应的标签yl的标签重要性程度,其中yl∈Y,设y0为标签重要性程度阈值所对应的虚拟标签,t(xi)为标签重要性程度阈值,则如果则yl是xi相关标签,即yl∈Yi,否则,yl不是xi的相关标签,即所述标签重要性程度满足以下条件:条件一:条件二:条件三:S102:设W=[wij]N×N表示实例之间的关联矩阵,其中元素wij的计算公式如下:其中,σ是相似度计算的参数,固定设置为1;S103:设M是所述关联矩阵的对角矩阵,M矩阵中对角线上的元素M(i,i)等于W矩阵第i行的和,其余元素为0;构造矩阵S=M-1/2WM-1/2;构造矩阵Φ=[φ]N×(L+1),其中:其中τ∈(0,1)为虚拟标签y0对应的比例参数;S104:构造矩阵F=[fil]N×(L+1):F(t)=αSF(t-1)+(1-α)Φ其中,参数α∈(0,1)为比例参数;S105:设F(0)=Φ,通过变换和运算,得到递归序列{F(t)}收敛于F*:F*=(1-α)(I-αS)-1ΦS106:基于F*,定义训练集D的每个示例的标签重要性程度如下:3.根据权利要求1所述的基于多标签学习的图像标注方法,其特征在于:步骤S200具体包括:S201:设定l=1,i=1;S202:判定是否满足l≤L,如果满足,进入S203,否则,结束;S203:Dl=D;S204:判定是否满足i≤N,如果满足,进入S205,否则,进入S215;S205:设定为空集(NULL);S206:判断是否满足yl∈Y,如果满足,进入S207...

【专利技术属性】
技术研发人员:翁伟李建敏尹华一朱顺痣吴芸钟瑛
申请(专利权)人:厦门理工学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1