The embodiment of the application discloses a label filling method and device, which relates to the field of multimedia technology, can generate labels for videos without labels, and to a certain extent avoid the homogenization of different video labels. Including: obtaining the candidate label set of the first entity; the candidate label set including the relationship representation vector and at least one label value representation vector; calculating the matching degree of each label value representation vector based on the relationship representation vector and the entity representation vector of the first entity; the entity representation vector is the representation direction determined according to the identification of the first entity The label corresponding to the first n label values representing vectors with high matching degree with the entity representation vectors of the first entity is regarded as the label of the first entity; the n is an integer greater than or equal to 1.
【技术实现步骤摘要】
一种标签补齐方法及装置
本申请实施例涉及多媒体
,尤其涉及一种标签补齐方法及装置。
技术介绍
视频运营网站可以利用视频标签来标记视频内容,实现细粒度、多维度的视频索引。现有技术中,首先基于现有视频长评和简介,训练得到视频现有标签中每一个标签的表示向量,并根据表示向量计算标签之间的相似度,将相似的标签构成相似标签簇。对于标签比较匮乏的视频,可以将相似标签簇中除该视频的种子标签以外的其他标签推荐给该视频,从而完成标签的补齐或扩展。但是,如果视频没有种子标签,如新加入的视频或冷门视频,该技术无法为该视频补齐标签。另外,由于是基于表示向量的相似性来补齐标签,最终导致各个视频的标签在语义上是非常相近的,同质化情况严重。
技术实现思路
本申请实施例提供一种标签补齐方法及装置,能够为缺失标签的视频生成标签,以及在一定程度上避免不同视频标签的同质化。为达到上述目的,本申请实施例采用如下技术方案:第一方面,本申请实施例提供了一种标签补齐方法,包括:对于待补齐标签的第一实体,首先获取第一实体的候选标签集合,其中,候选标签集合包括至少一个标签值表示向量。接着,还可以计算每一个标签值表示向量基于关系表示向量与第一实体的实体表示向量的匹配度,这里的实体表示向量可以是根据第一实体的标识确定的表示向量,关系表示向量指示的关系为标签,关系表示向量可以是根据“标签是”训练得到的表示向量。示例的,A和B满足的关系为“标签”,可以理解为A的标签是B。最后,将与第一实体的实体表示向量匹配度较高的前N个标签值 ...
【技术保护点】
1.一种标签补齐方法,其特征在于,包括:/n获取第一实体的候选标签集合;所述候选标签集合包括至少一个标签值表示向量;/n计算每一个所述标签值表示向量基于关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;所述关系表示向量指示的关系为标签;/n将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。/n
【技术特征摘要】
1.一种标签补齐方法,其特征在于,包括:
获取第一实体的候选标签集合;所述候选标签集合包括至少一个标签值表示向量;
计算每一个所述标签值表示向量基于关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;所述关系表示向量指示的关系为标签;
将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述获取第一实体的候选标签集合具体包括:
确定元数据集合,所述元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;
根据所述元数据集合生成有效表示向量集合;所述有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量;
根据所述有效表示向量集合中的标签值表示向量构成所述候选标签集合。
3.根据权利2所述的方法,其特征在于,所述根据所述元数据集合生成有效表示向量集合具体包括:
根据所述元数据集合中的属性以及属性值确定M个三元组;所述三元组包括头实体、关系以及尾实体,所述头实体与所述尾实体满足所述关系,所述M为大于等于1的整数;
将所述M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得所述M个三元组中每一个三元组对应的表示向量三元组;所述三元组中的关系对应的向量为关系表示向量,所述三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,所述三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量;
对所有所述表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个所述正例三元组对应的负例三元组;所述正例三元组中的关系与所述负例三元组中的关系相同,所述正例三元组的头实体与所述负例三元组的头实体不同或所述正例三元组的尾实体与所述负例三元组的尾实体不同,所述负例三元组不在所有所述表示向量三元组构成的集合中;
根据所述正例三元组以及所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合。
4.根据权利要求3所述的方法,其特征在于,所述根据所述正例三元组以及所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合具体包括:
将所述所述正例三元组以及所述正例三元组对应的负例三元组代入以下公式:判断目标函数L是否收敛;
若所述目标函数L收敛,则根据所述所述M个三元组对应的表示向量三元组包括的表示向量构建所述有效表示向量集合;
若所述目标函数L未收敛,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得所述目标函数L收敛;将所述更新后的正例三元组包括的表示向量确定为所述有效表示向量集合;
其中,(h,r,t)代表正例三元组,P为所有正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所有正例三元组对应的负例三元组构成的集合,所述Mh为实数,所述[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。
5.根据权利要求4所述的方法,其特征在于,所述根据随机梯度下降算法更新所有正例三元组以及所有负例三元组具体包括:
对于所述正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的关系对应的表示向量;
对于所述负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的关系对应的表示向量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述计算每一个所述标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度具体包括:
根据计算所述每一个标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度系数x;
其中,e为所述第一实体的实体表示向量,r为关系表示向量,f为标签值表示向量,||h||2为向量h的2范数。
7.根据权利要求6所述的方法,其特征在于,所述将与所述第一实体的实体表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。