【技术实现步骤摘要】
一种基于单向监督注意力的多模态标签推荐方法
[0001]本专利技术涉及多模态数据的信息检索
,具体涉及一种基于多模态数据的标签推荐方法。
技术介绍
[0002]标签是一种对对象特征进行描述的关键词,它允许用户根据偏好自由地选择相关词语指派给目标。标签不仅能够高度概括对象的关键信息,还可以通过构建内链,实现对象间的互联,形成关系网络。通过标签系统,营销者可以更加清晰明了的展示产品的相关重要信息;消费者能够增强产品检索的有效性,提高用户体验;平台能够更加有效的追踪和管理营销者生成内容。尽管标签在对于内容组织与消费方面的重要性已经被证实,但目前仍然只有相对较少的文章包含用户标签。因此,标签推荐成为了一项必需且重要的任务。
[0003]近些年来,研究人员已使用了多种方法去完成标签推荐任务,例如协同过滤、生成模型、深度神经网络等。虽然在这个话题上已经有很多的研究,但大多数的研究都集中在使用文本特征。然而,根据统计,超过42%的推特推文含有多模态数据。图片特征同样可以提供丰富的信息来帮助我们处理标签推荐任务。此外,图片与文本所展示的信息可能是互补的,二者共同作用才能更加全面地反映对象的特征。因此,仅仅使用文本特征去解决标签推荐任务是不够的。虽然目前已经有一些研究提出了结合文本与图片特征的多模态模型,但将它们运用到标签推荐任务上都存在着一些不足。文献[Vqa:Visual question answering,2015]通过提取文本与图片全局特征向量进行元素乘来建模对象特征。该方式忽略了一个问题:标签并不一定与图像及
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于单向监督注意力的多模态标签推荐方法,其特征是按如下步骤进行:步骤1、构建多模态数据集合A;步骤1.1、构建多模态数据的文本信息集合,记为T={t1,t2,
…
,t
k
,
…
,t
K
},其中,t
k
表示第k条文本信息,K为文本信息的总条数;所述第k条文本信息t
k
包含的单词,记为t
k
={w
1,k
,w
2,k
,
…
,w
n,k
,
…
,w
N,k
},其中,w
n,k
表示所述第k条文本信息t
k
中第n个文本词,N表示文本信息的最大词汇长度;步骤1.2、构建多模态数据的视觉信息集合,记为P={U1,U2,
…
,U
k
,
…
,U
K
},其中,U
k
表示第k条视觉信息,所述第k条视觉信息U
k
包含的图片,记为U
k
={p
1,k
,p
2,k
,
…
,p
m,k
,
…
,p
M,k
},其中,p
m,k
表示所述第k条视觉信息U
k
中第m张图片,M表示视觉信息的最大图片数;步骤1.3、构建多模态数据中的标签信息集合,记为Λ={Λ1,Λ2,
…
,Λ
k
,
…
,Λ
K
},其中,Λ
k
表示第k条标签信息,所述第k条标签信息Λ
k
包含的标签,记为Λ
k
={λ
1,k
,λ
2,k
,
…
,λ
o,k
,
…
,λ
O,k
},其中,λ
o,k
表示所述第k条标签信息Λ
k
中第o个标签,O表示标签信息的最大标签数;由所有不同的标签信息构成标签空间Φ;步骤1.4、由所述文本信息集合T、视觉信息集合P以及标签信息集合Λ构建多模态数据集合A={T,P,Λ};步骤2、获取文本信息的特征表示;步骤2.1、对第k条文本信息t
k
进行词嵌入,得到词向量X
k
={x
1,k
,x
2,k
,
…
,x
n,k
,
…
,x
N,k
},其中,x
n,k
表示所述第k条文本信息t
k
中第n个词向量,对于长度小于N的文本数据,填充零向量以达到长度N;步骤2.2、采用双向GRU对词向量X
k
进行处理,得到词级别的文本特征表示,记为其中,表示所述第k条文本信息t
k
中第n个词级别的文本特征;以n为当前时间步,对于第n个词向量x
n,k
,GRU单元利用式(1)
‑
式(3)分别得到更新门z
n,k
、重置门r
n,k
、候选状态从而根据第n
‑
1个时间步的GRU单元输出h
n
‑
1,k
,利用式(4)得到第n个时间步的GRU单元输出h
n,k
:z
n,k
=σ(W
z
·
[h
n
‑
1,k
,x
n,k
]+b
z
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)r
n,k
=σ(W
r
·
[h
n
‑
技术研发人员:凌海峰,徐旺,钱洋,姜元春,刘业政,柴一栋,孙见山,袁昆,孟祥睿,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。