一种基于单向监督注意力的多模态标签推荐方法技术

技术编号:31020464 阅读:16 留言:0更新日期:2021-11-30 03:08
本发明专利技术公开了一种基于单向监督注意力的多模态标签推荐方法,其步骤包括:1.构建多模态数据集合并表示,2.获取文本信息的特征表示,3.获取视觉信息的特征表示,4.深度融合文本与视觉特征,5.利用融合后的全局特征进行标签推荐。本发明专利技术在处理标签推荐任务时,能够综合利用文本与视觉信息,以得到有效的数据特征表示,从而能提高推荐精度。从而能提高推荐精度。从而能提高推荐精度。

【技术实现步骤摘要】
一种基于单向监督注意力的多模态标签推荐方法


[0001]本专利技术涉及多模态数据的信息检索
,具体涉及一种基于多模态数据的标签推荐方法。

技术介绍

[0002]标签是一种对对象特征进行描述的关键词,它允许用户根据偏好自由地选择相关词语指派给目标。标签不仅能够高度概括对象的关键信息,还可以通过构建内链,实现对象间的互联,形成关系网络。通过标签系统,营销者可以更加清晰明了的展示产品的相关重要信息;消费者能够增强产品检索的有效性,提高用户体验;平台能够更加有效的追踪和管理营销者生成内容。尽管标签在对于内容组织与消费方面的重要性已经被证实,但目前仍然只有相对较少的文章包含用户标签。因此,标签推荐成为了一项必需且重要的任务。
[0003]近些年来,研究人员已使用了多种方法去完成标签推荐任务,例如协同过滤、生成模型、深度神经网络等。虽然在这个话题上已经有很多的研究,但大多数的研究都集中在使用文本特征。然而,根据统计,超过42%的推特推文含有多模态数据。图片特征同样可以提供丰富的信息来帮助我们处理标签推荐任务。此外,图片与文本所展示的信息可能是互补的,二者共同作用才能更加全面地反映对象的特征。因此,仅仅使用文本特征去解决标签推荐任务是不够的。虽然目前已经有一些研究提出了结合文本与图片特征的多模态模型,但将它们运用到标签推荐任务上都存在着一些不足。文献[Vqa:Visual question answering,2015]通过提取文本与图片全局特征向量进行元素乘来建模对象特征。该方式忽略了一个问题:标签并不一定与图像及文本的所有部分都存在关联。采用全局特征反而会引入噪声,导致推荐精度下降。文献[Hashtag Recommendation for Multimodal Microblog Using Co

Attention Network,2017]将一种协同注意力机制引入标签推荐任务来融合图片与文本特征,但该机制由文献[Hierarchical co

attention for visual question answering,2016]提出,最初被用于视觉问答任务。由于视觉问答是对文本与图片特征进行匹配,主要关注图片与文本的共性,所以使用该机制时容易忽略文本或图片中独有的部分。文献[AMNN:Attention

Based Multimodal Neural Network Model for Hashtag Recommendation,2020]采用自注意力机制,分别提取文本与图片特征,然后通过对文本与图片特征进行简单求和得到总体特征进行标签推荐,但该方式没有考虑到文本与图片特征间的信息交互。如何有效的提取并融合图片与文本特征,仍然是一个需要研究的问题。此外,先前对于多模态数据的研究中,每条数据大都只含有一张图片。但是在很多情况下,例如微博帖子中,每篇文章并不只含有一张图片,而且并不一定所有图片都对标签推荐任务有帮助。如何有效地利用这些图片的信息,也是值得研究的问题。

技术实现思路

[0004]本专利技术为了克服现有技术存在的不足之处,提出一种基于单向监督注意力的多模态标签推荐方法,以期在处理多模态数据的标签推荐任务时,能够综合利用文本与视觉信
息,以快速且准确地学习出数据特征表示,从而提高标签推荐的准确性和精度。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种基于单向监督注意力的多模态标签推荐方法的特点是按如下步骤进行:
[0007]步骤1、构建多模态数据集合A;
[0008]步骤1.1、构建多模态数据的文本信息集合,记为T={t1,t2,
···
,t
k
,
···
,t
K
},其中,t
k
表示第k条文本信息,K为文本信息的总条数;所述第k条文本信息t
k
包含的单词,记为t
k
={w
1,k
,w
2,k
,
···
,w
n,k
,
···
,w
N,k
},其中,w
n,k
表示所述第k条文本信息t
k
中第n个文本词,N表示文本信息的最大词汇长度;
[0009]步骤1.2、构建多模态数据的视觉信息集合,记为P={U1,U2,
···
,U
k
,
···
,U
K
},其中,U
k
表示第k条视觉信息,所述第k条视觉信息U
k
包含的图片,记为U
k
={p
1,k
,p
2,k
,
···
,p
m,k
,
···
,p
M,k
},其中,p
m,k
表示所述第k条视觉信息U
k
中第m张图片,M表示视觉信息的最大图片数;
[0010]步骤1.3、构建多模态数据中的标签信息集合,记为Λ={Λ1,Λ2,
···

k
,
···

K
},其中,Λ
k
表示第k条标签信息,所述第k条标签信息Λ
k
包含的标签,记为Λ
k
={λ
1,k

2,k
,
···

o,k
,
···

O,k
},其中,λ
o,k
表示所述第k条标签信息Λ
k
中第o个标签,O表示标签信息的最大标签数;由所有不同的标签信息构成标签空间Φ;
[0011]步骤1.4、由所述文本信息集合T、视觉信息集合P以及标签信息集合Λ构建多模态数据集合A={T,P,Λ};
[0012]步骤2、获取文本信息的特征表示;
[0013]步骤2.1、对第k条文本信息t
k
进行词嵌入,得到词向量X
k
={x
1,k
,x
2,k
,
···
,x
n,k
,
···
,x
N,k
},其中,x
n,k
表示所述第k条文本信息t
k
中第n个词向量,对于长度小于N的文本数据,填充零向量以达到长度N;
[0014]步骤2.2、采用双向GRU对词向量X
k
进行处理,得到词级别的文本特征表示,记为其中,表示所述第k条文本信息t
k
中第n个词级别的文本特征;
[0015]以n为当前时间步,对于第n个词向量x
n,k
,GRU单元利用式(1)...

【技术保护点】

【技术特征摘要】
1.一种基于单向监督注意力的多模态标签推荐方法,其特征是按如下步骤进行:步骤1、构建多模态数据集合A;步骤1.1、构建多模态数据的文本信息集合,记为T={t1,t2,

,t
k
,

,t
K
},其中,t
k
表示第k条文本信息,K为文本信息的总条数;所述第k条文本信息t
k
包含的单词,记为t
k
={w
1,k
,w
2,k
,

,w
n,k
,

,w
N,k
},其中,w
n,k
表示所述第k条文本信息t
k
中第n个文本词,N表示文本信息的最大词汇长度;步骤1.2、构建多模态数据的视觉信息集合,记为P={U1,U2,

,U
k
,

,U
K
},其中,U
k
表示第k条视觉信息,所述第k条视觉信息U
k
包含的图片,记为U
k
={p
1,k
,p
2,k
,

,p
m,k
,

,p
M,k
},其中,p
m,k
表示所述第k条视觉信息U
k
中第m张图片,M表示视觉信息的最大图片数;步骤1.3、构建多模态数据中的标签信息集合,记为Λ={Λ1,Λ2,


k
,


K
},其中,Λ
k
表示第k条标签信息,所述第k条标签信息Λ
k
包含的标签,记为Λ
k
={λ
1,k

2,k
,


o,k
,


O,k
},其中,λ
o,k
表示所述第k条标签信息Λ
k
中第o个标签,O表示标签信息的最大标签数;由所有不同的标签信息构成标签空间Φ;步骤1.4、由所述文本信息集合T、视觉信息集合P以及标签信息集合Λ构建多模态数据集合A={T,P,Λ};步骤2、获取文本信息的特征表示;步骤2.1、对第k条文本信息t
k
进行词嵌入,得到词向量X
k
={x
1,k
,x
2,k
,

,x
n,k
,

,x
N,k
},其中,x
n,k
表示所述第k条文本信息t
k
中第n个词向量,对于长度小于N的文本数据,填充零向量以达到长度N;步骤2.2、采用双向GRU对词向量X
k
进行处理,得到词级别的文本特征表示,记为其中,表示所述第k条文本信息t
k
中第n个词级别的文本特征;以n为当前时间步,对于第n个词向量x
n,k
,GRU单元利用式(1)

式(3)分别得到更新门z
n,k
、重置门r
n,k
、候选状态从而根据第n

1个时间步的GRU单元输出h
n

1,k
,利用式(4)得到第n个时间步的GRU单元输出h
n,k
:z
n,k
=σ(W
z
·
[h
n

1,k
,x
n,k
]+b
z
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)r
n,k
=σ(W
r
·
[h
n

【专利技术属性】
技术研发人员:凌海峰徐旺钱洋姜元春刘业政柴一栋孙见山袁昆孟祥睿
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1