一种基于单向监督注意力的多模态标签推荐方法技术

技术编号：31020464 阅读：27 留言：0更新日期：2021-11-30 03:08

本发明专利技术公开了一种基于单向监督注意力的多模态标签推荐方法，其步骤包括：1.构建多模态数据集合并表示，2.获取文本信息的特征表示，3.获取视觉信息的特征表示，4.深度融合文本与视觉特征，5.利用融合后的全局特征进行标签推荐。本发明专利技术在处理标签推荐任务时，能够综合利用文本与视觉信息，以得到有效的数据特征表示，从而能提高推荐精度。从而能提高推荐精度。从而能提高推荐精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于单向监督注意力的多模态标签推荐方法

[0001]本专利技术涉及多模态数据的信息检索
，具体涉及一种基于多模态数据的标签推荐方法。

技术介绍

[0002]标签是一种对对象特征进行描述的关键词，它允许用户根据偏好自由地选择相关词语指派给目标。标签不仅能够高度概括对象的关键信息，还可以通过构建内链，实现对象间的互联，形成关系网络。通过标签系统，营销者可以更加清晰明了的展示产品的相关重要信息；消费者能够增强产品检索的有效性，提高用户体验；平台能够更加有效的追踪和管理营销者生成内容。尽管标签在对于内容组织与消费方面的重要性已经被证实，但目前仍然只有相对较少的文章包含用户标签。因此，标签推荐成为了一项必需且重要的任务。
[0003]近些年来，研究人员已使用了多种方法去完成标签推荐任务，例如协同过滤、生成模型、深度神经网络等。虽然在这个话题上已经有很多的研究，但大多数的研究都集中在使用文本特征。然而，根据统计，超过42％的推特推文含有多模态数据。图片特征同样可以提供丰富的信息来帮助我们处理标签推荐任务。此外，图片与文...

【技术保护点】

【技术特征摘要】
1.一种基于单向监督注意力的多模态标签推荐方法，其特征是按如下步骤进行：步骤1、构建多模态数据集合A；步骤1.1、构建多模态数据的文本信息集合，记为T＝{t1,t2,
…
,t
k
,
…
,t
K
}，其中，t
k
表示第k条文本信息，K为文本信息的总条数；所述第k条文本信息t
k
包含的单词，记为t
k
＝{w
1,k
,w
2,k
,
…
,w
n,k
,
…
,w
N,k
}，其中，w
n,k
表示所述第k条文本信息t
k
中第n个文本词，N表示文本信息的最大词汇长度；步骤1.2、构建多模态数据的视觉信息集合，记为P＝{U1,U2,
…
,U
k
,
…
,U
K
}，其中，U
k
表示第k条视觉信息，所述第k条视觉信息U
k
包含的图片，记为U
k
＝{p
1,k
,p
2,k
,
…
,p
m,k
,
…
,p
M,k
}，其中，p
m,k
表示所述第k条视觉信息U
k
中第m张图片，M表示视觉信息的最大图片数；步骤1.3、构建多模态数据中的标签信息集合，记为Λ＝{Λ1,Λ2,
…
,Λ
k
,
…
,Λ
K
}，其中，Λ
k
表示第k条标签信息，所述第k条标签信息Λ
k
包含的标签，记为Λ
k
＝{λ
1,k
,λ
2,k
,
…
,λ
o,k
,
…
,λ
O,k
}，其中，λ
o,k
表示所述第k条标签信息Λ
k
中第o个标签，O表示标签信息的最大标签数；由所有不同的标签信息构成标签空间Φ；步骤1.4、由所述文本信息集合T、视觉信息集合P以及标签信息集合Λ构建多模态数据集合A＝{T,P,Λ}；步骤2、获取文本信息的特征表示；步骤2.1、对第k条文本信息t
k
进行词嵌入，得到词向量X
k
＝{x
1,k
,x
2,k
,
…
,x
n,k
,
…
,x
N,k
}，其中，x
n,k
表示所述第k条文本信息t
k
中第n个词向量，对于长度小于N的文本数据，填充零向量以达到长度N；步骤2.2、采用双向GRU对词向量X
k
进行处理，得到词级别的文本特征表示，记为其中，表示所述第k条文本信息t
k
中第n个词级别的文本特征；以n为当前时间步，对于第n个词向量x
n,k
，GRU单元利用式(1)
‑
式(3)分别得到更新门z
n,k
、重置门r
n,k
、候选状态从而根据第n
‑
1个时间步的GRU单元输出h
n
‑
1,k
，利用式(4)得到第n个时间步的GRU单元输出h
n,k
：z
n,k
＝σ(W
z
·
[h
n
‑
1,k
,x
n,k
]+b
z
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)r
n,k
＝σ(W
r
·
[h
n
‑

【专利技术属性】
技术研发人员：凌海峰，徐旺，钱洋，姜元春，刘业政，柴一栋，孙见山，袁昆，孟祥睿，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人