一种标签补齐方法及装置制造方法及图纸

技术编号:22783802 阅读:14 留言:0更新日期:2019-12-11 04:14
本申请实施例公开了一种标签补齐方法及装置,涉及多媒体技术领域,能够为缺失标签的视频生成标签,以及在一定程度上避免不同视频标签的同质化。包括:获取第一实体的候选标签集合;所述候选标签集合包括关系表示向量以及至少一个标签值表示向量;计算每一个所述标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。

A method and device for label supplement

The embodiment of the application discloses a label filling method and device, which relates to the field of multimedia technology, can generate labels for videos without labels, and to a certain extent avoid the homogenization of different video labels. Including: obtaining the candidate label set of the first entity; the candidate label set including the relationship representation vector and at least one label value representation vector; calculating the matching degree of each label value representation vector based on the relationship representation vector and the entity representation vector of the first entity; the entity representation vector is the representation direction determined according to the identification of the first entity The label corresponding to the first n label values representing vectors with high matching degree with the entity representation vectors of the first entity is regarded as the label of the first entity; the n is an integer greater than or equal to 1.

【技术实现步骤摘要】
一种标签补齐方法及装置
本申请实施例涉及多媒体
,尤其涉及一种标签补齐方法及装置。
技术介绍
视频运营网站可以利用视频标签来标记视频内容,实现细粒度、多维度的视频索引。现有技术中,首先基于现有视频长评和简介,训练得到视频现有标签中每一个标签的表示向量,并根据表示向量计算标签之间的相似度,将相似的标签构成相似标签簇。对于标签比较匮乏的视频,可以将相似标签簇中除该视频的种子标签以外的其他标签推荐给该视频,从而完成标签的补齐或扩展。但是,如果视频没有种子标签,如新加入的视频或冷门视频,该技术无法为该视频补齐标签。另外,由于是基于表示向量的相似性来补齐标签,最终导致各个视频的标签在语义上是非常相近的,同质化情况严重。
技术实现思路
本申请实施例提供一种标签补齐方法及装置,能够为缺失标签的视频生成标签,以及在一定程度上避免不同视频标签的同质化。为达到上述目的,本申请实施例采用如下技术方案:第一方面,本申请实施例提供了一种标签补齐方法,包括:对于待补齐标签的第一实体,首先获取第一实体的候选标签集合,其中,候选标签集合包括至少一个标签值表示向量。接着,还可以计算每一个标签值表示向量基于关系表示向量与第一实体的实体表示向量的匹配度,这里的实体表示向量可以是根据第一实体的标识确定的表示向量,关系表示向量指示的关系为标签,关系表示向量可以是根据“标签是”训练得到的表示向量。示例的,A和B满足的关系为“标签”,可以理解为A的标签是B。最后,将与第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为第一实体的标签,其中,N为大于等于1的整数。本专利技术实施例提供的标签补齐方法中,计算标签值表示向量在某关系下与实体表示向量的匹配度,即判断标签与实体是否满足该关系。标签值表示向量在某关系表示向量下与实体表示向量匹配,则说明实体名节点(即第一实体的实体表示向量对应的节点)与标签值节点(即标签值表示向量对应的节点)之间存在链接的可能,那么该标签值表示向量所对应的标签可以作为该实体的标签。也就是说,本专利技术实施例中通过链接预测实现实体的标签补齐,不需要待补齐标签的实体事先有种子标签。另外,本专利技术实施例决策补齐标签时,考虑的是向量空间中节点间的位置关系(即节点之间是否有链接可能)而非相似关系,因此避免补齐标签的同质化问题。可见,本专利技术实施例提供的方法能够为缺失标签的实体(如:视频、商品等)生成标签,以及在一定程度上避免不同实体标签的同质化。结合第一方面,在第一方面的第一种可能的实现方式中,获取第一实体的候选标签集合具体包括:可以根据所有已有标签的实体的元数据确定元数据集合,元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;其中,第二实体与第一实体不同。进一步,还可以根据元数据集合生成有效表示向量集合,有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量;最后,根据有效表示向量集合中的标签值表示向量构成候选标签集合。也就是说,可以对所有实体的元数据进行训练结合,获得很多的表示向量,最终筛选其中的关系表示向量以及标签值表示向量构成候选标签集合。结合第一方面或以上第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据元数据集合生成有效表示向量集合具体包括:根据元数据集合中的属性以及属性值确定M个三元组。其中,三元组包括头实体、关系以及尾实体,头实体与尾实体满足三元组中的“关系”,M为大于等于1的整数。接着,还可以将M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得M个三元组中每一个三元组对应的表示向量三元组。需要说明的是,三元组中的“关系”对应的向量为关系表示向量,三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量。在本发实施例中属性名是实体的某一属性的名称,属性值是某个属性维度的具体取值。示例的,“导演”是一个属性名,“周显扬”是具体的属性值。同样,类型名是某一类型的名称,类型值是某个属类型维度的具体取值。例的,“时间”是一个类型值,“人物”也是类型值。进一步,可以对所有表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个正例三元组对应的负例三元组。需要说明的是,正例三元组中的关系与负例三元组中的关系相同,正例三元组的头实体与负例三元组的头实体不同或正例三元组的尾实体与负例三元组的尾实体不同,负例三元组不在所有表示向量三元组构成的集合中。最后,可以根据正例三元组以及正例三元组对应的负例三元组,在M个三元组对应的表示向量三元组包括的表示向量中确定有效表示向量集合。也就是说可以根据元数据确定正例三元组以及负例三元组,进一可以在最初向量化后获得的表示向量中确定有效表示向量集合。结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第三种可能的实现方式中,根据正例三元组以及正例三元组对应的负例三元组,在M个三元组对应的表示向量三元组包括的表示向量中确定有效表示向量集合具体包括:将正例三元组以及正例三元组对应的负例三元组代入以下公式:判断目标函数L是否收敛;若目标函数L收敛,则根据M个三元组对应的表示向量三元组包括的表示向量构建有效表示向量集合。若目标函数L未收敛,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得目标函数L收敛;将更新后的正例三元组包括的表示向量确定为有效表示向量;其中,(h,r,t)代表正例三元组,P为所有正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所有正例三元组对应的负例三元组构成的集合,Mh为实数,[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。需要说明的是,目标函数收敛的条件是:迭代次数达到阈值或者目标函数收敛于某个数值。其中,目标函数L收敛于某个数值指的是,连续几次代入正例三元组、负例三元组得到的L值是相同的。结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第四种可能的实现方式中,根据随机梯度下降算法更新所有正例三元组以及所有负例三元组具体包括:对于正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的关系对应的表示向量;对于负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的关系对应的表示向量。也就是说,当正例三元组、负例三元组不能使目标函数L收敛,则对正例三元组、负例三元组进行修正,以便重新代入目标函数中进行验证。结合本文档来自技高网...

【技术保护点】
1.一种标签补齐方法,其特征在于,包括:/n获取第一实体的候选标签集合;所述候选标签集合包括至少一个标签值表示向量;/n计算每一个所述标签值表示向量基于关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;所述关系表示向量指示的关系为标签;/n将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。/n

【技术特征摘要】
1.一种标签补齐方法,其特征在于,包括:
获取第一实体的候选标签集合;所述候选标签集合包括至少一个标签值表示向量;
计算每一个所述标签值表示向量基于关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;所述关系表示向量指示的关系为标签;
将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。


2.根据权利要求1所述的方法,其特征在于,所述获取第一实体的候选标签集合具体包括:
确定元数据集合,所述元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;
根据所述元数据集合生成有效表示向量集合;所述有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量;
根据所述有效表示向量集合中的标签值表示向量构成所述候选标签集合。


3.根据权利2所述的方法,其特征在于,所述根据所述元数据集合生成有效表示向量集合具体包括:
根据所述元数据集合中的属性以及属性值确定M个三元组;所述三元组包括头实体、关系以及尾实体,所述头实体与所述尾实体满足所述关系,所述M为大于等于1的整数;
将所述M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得所述M个三元组中每一个三元组对应的表示向量三元组;所述三元组中的关系对应的向量为关系表示向量,所述三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,所述三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量;
对所有所述表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个所述正例三元组对应的负例三元组;所述正例三元组中的关系与所述负例三元组中的关系相同,所述正例三元组的头实体与所述负例三元组的头实体不同或所述正例三元组的尾实体与所述负例三元组的尾实体不同,所述负例三元组不在所有所述表示向量三元组构成的集合中;
根据所述正例三元组以及所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合。


4.根据权利要求3所述的方法,其特征在于,所述根据所述正例三元组以及所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合具体包括:
将所述所述正例三元组以及所述正例三元组对应的负例三元组代入以下公式:判断目标函数L是否收敛;
若所述目标函数L收敛,则根据所述所述M个三元组对应的表示向量三元组包括的表示向量构建所述有效表示向量集合;
若所述目标函数L未收敛,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得所述目标函数L收敛;将所述更新后的正例三元组包括的表示向量确定为所述有效表示向量集合;
其中,(h,r,t)代表正例三元组,P为所有正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所有正例三元组对应的负例三元组构成的集合,所述Mh为实数,所述[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。


5.根据权利要求4所述的方法,其特征在于,所述根据随机梯度下降算法更新所有正例三元组以及所有负例三元组具体包括:
对于所述正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的关系对应的表示向量;
对于所述负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的关系对应的表示向量。


6.根据权利要求1-5任一项所述的方法,其特征在于,所述计算每一个所述标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度具体包括:
根据计算所述每一个标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度系数x;
其中,e为所述第一实体的实体表示向量,r为关系表示向量,f为标签值表示向量,||h||2为向量h的2范数。


7.根据权利要求6所述的方法,其特征在于,所述将与所述第一实体的实体表示...

【专利技术属性】
技术研发人员:胡磊张旭
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1