当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于多模态数据的电影类型预测方法和系统技术方案

技术编号:38561877 阅读:14 留言:0更新日期:2023-08-22 21:02
本发明专利技术涉及一种基于多模态数据的电影类型预测方法和系统,方法包括:对每部电影的文本、视频、海报和音频数据分别进行嵌入,得到文本、视频、海报和音频嵌入;将文本嵌入和视频嵌入进行处理,得到文本和视频特征;同时对海报嵌入和音频嵌入分别进行处理,得到海报特征和音频特征;将每部电影的文本和视频特征、海报特征和音频特征进行融合,得到所有电影的多模态数据;基于电影元数据构建不同电影的多模态电影图,并对多模态电影图和所有电影的多模态数据进行学习,得到电影嵌入;根据电影嵌入对不同电影类型进行分类。本发明专利技术在电影类型分类任务中考虑多模态数据之间的交互,并加入了电影元数据,有效提高电影类型分类结果。有效提高电影类型分类结果。有效提高电影类型分类结果。

【技术实现步骤摘要】
一种基于多模态数据的电影类型预测方法和系统


[0001]本专利技术涉及电影类型分类
,尤其是指一种基于多模态数据的电影类型预测方法和系统。

技术介绍

[0002]在过去的几十年里,电影产业得到了快速的发展,进而产生了大量的电影数据,电影的介绍数据包括电影梗概、海报和预告片等,是一种经典的多模态数据。近年来,电影类型分类(MGC)任务由于具有广泛的应用空间,逐渐得到研究者的重视,例如:在社交媒体上对用户类似视频进行组织、纠正错误标签的视频、为推荐系统检索某一类型的电影等。
[0003]电影数据包括电影梗概、海报、视频和音频。基于这些多模态数据,目前已经有工作为处理电影类型分类任务作出了巨大的努力。例如,现有技术利用预告片的视频和音频数据进行电影分类;现有技术还利用电影梗概和海报处理MGC任务。尽管这些工作已经取得了很好的表现,但它们对于多模态信息的融合仅采用拼接或加权融合等简单的融合策略,未能有效地捕获文本和视听数据之间的交互信息。除了文本和视听数据之外,电影的元数据(如导演和演员)也是处理MGC任务的重要数据,因为电影之间可以通过演职人员的合作而产生连接,例如,电影和其续集之间由于演职人员存在较大重叠,因而电影之间的连接关系较强,且电影和其续集具有同样的类型标签,但目前的研究工作都未考虑电影元数据(如导演和演员)与多模态数据的融合。
[0004]现有技术的缺点:(1)现存工作的多模态融合策略不能有效考虑多模态数据之间的交互;(2)目前没有工作考虑到电影元数据中的导演和演员信息来提高处理MGC任务的性能。

技术实现思路

[0005]为此,本专利技术所要解决的技术问题在于克服现有技术在电影类型分类任务中不能有效考虑多模态数据之间的交互,同时未考虑电影元数据(如导演和演员)与多模态信息的融合,导致电影类型分类效果不佳的问题。
[0006]为解决上述技术问题,本专利技术提供了一种基于多模态数据的电影类型预测方法,包括:
[0007]步骤S1:获取每部电影的文本、视频、海报和音频数据并对其分别进行嵌入,得到文本嵌入、视频嵌入、海报嵌入和音频嵌入;
[0008]步骤S2:将所述文本嵌入和视频嵌入进行拼接,并对拼接后的数据进行特征提取与融合,得到文本和视频特征;
[0009]同时对所述海报嵌入和音频嵌入分别进行特征提取,得到海报特征和音频特征;
[0010]步骤S3:基于电影元数据构建不同电影的多模态电影图,并使所述文本和视频特征、海报特征和音频特征对所述多模态电影图中的电影元数据进行学习,得到电影嵌入,其中,所述电影元数据包括导演、编剧和演员信息;
[0011]步骤S4:根据所述电影嵌入对不同电影类型进行分类。
[0012]在本专利技术的一个实施例中,所述步骤S2和步骤S3之间还包括:将每部电影的文本和视频特征、海报特征和音频特征进行融合,得到所有电影的多模态数据。
[0013]在本专利技术的一个实施例中,所述将每部电影的文本和视频特征、海报特征和音频特征进行融合,得到所有电影的多模态数据,方法包括:
[0014]将每部电影的文本和视频特征O
TV
转换为与海报特征O
P
和音频特征O
A
相同的维度空间h,得到多模态特征F,表示为:其中,经过维度空间转换的文本和视频特征;
[0015]将所述多模态特征F沿转换后的维度空间h进行连接以获得f
i
∈R
m
×
h
,其中,m表示模态数目;
[0016]通过第一线性矩阵W
q
获得查询矩阵Q
i
=f
i
W
q
,通过第二线性矩阵W
k
获得关键矩阵K
i
=f
i
W
k
,通过第三线性矩阵W
v
获得值矩阵V
i
=f
i
W
v

[0017]根据所述查询矩阵Q
i
和关键矩阵K
i
计算模态间注意矩阵P
i
,公式为:其中,softmax(
·
)表示注意力函数;T表示矩阵转置,P
i
∈R
m
×
m
,R表示向量空间,P
i
表示在第i部电影中三种模态互相之间的关注度;
[0018]根据所述模态间注意矩阵P
i
构和值矩阵V
i
构建注意力聚合,表示为P
i
V
i

[0019]将所述注意力聚合P
i
V
i
后的多模态特征F进行向量化,得到O
i
,并对多模态特征F添加残差连接,公式为:O
i
=Vec(P
i
V
i
+f
i
),其中,Vec(
·
)表示将特征矩阵按行展开,O
i
∈R1×
mh

[0020]将所有电影的O
i
进行聚合,表示为:O={O1,O2,...,O
N
},其中,O表示所有电影的多模态数据。
[0021]在本专利技术的一个实施例中,所述步骤S1中的文本嵌入、视频嵌入、海报嵌入和音频嵌入的公式分别为:
[0022][0023][0024][0025][0026]其中,BertEmbed(
·
)表示对文本数据进行嵌入采用的基于Bert的嵌入模块,表示第i部电影的文本数据M
t
的文本嵌入,SwinSmall(
·
)表示对视频数据或海报进行嵌入采用的Swin Transformer中的SwinSmall层,表示第i个视频帧的视频嵌入,M
p
表示海报数据,表示第i部电影的海报嵌入,Wav2Vec2(
·
)表示对音频数据进行嵌入采用的Wav2Vec2层,表示第i部电影的音频嵌入。
[0027]在本专利技术的一个实施例中,所述步骤S2中对拼接后的数据进行特征提取与融合,得到文本和视频特征,包括:
[0028]通过Transformer模块对拼接后的数据进行特征提取与融合,得到初始文本和视频特征O
att

[0029]将初始文本和视频特征输入平均池化层,得到文本和视频特征O
TV
,所述文本和视
频特征为初始文本和视频特征O
att
的表示向量,其中,O
TV
=MP(O
att
),MP表示平均池化操作。
[0030]在本专利技术的一个实施例中,所述步骤S2中通过多层感知机对所述海报嵌入和音频嵌入分别进行特征提取,得到海报特征和音频特征,公式为:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态数据的电影类型预测方法,其特征在于:包括:步骤S1:获取每部电影的文本、视频、海报和音频数据并对其分别进行嵌入,得到文本嵌入、视频嵌入、海报嵌入和音频嵌入;步骤S2:将所述文本嵌入和视频嵌入进行拼接,并对拼接后的数据进行特征提取与融合,得到文本和视频特征;同时对所述海报嵌入和音频嵌入分别进行特征提取,得到海报特征和音频特征;步骤S3:基于电影元数据构建不同电影的多模态电影图,并使所述文本和视频特征、海报特征和音频特征对所述多模态电影图中的电影元数据进行学习,得到电影嵌入,其中,所述电影元数据包括导演、编剧和演员信息;步骤S4:根据所述电影嵌入对不同电影类型进行分类。2.根据权利要求1所述的基于多模态数据的电影类型预测方法,其特征在于:所述步骤S2和步骤S3之间还包括:将每部电影的文本和视频特征、海报特征和音频特征进行融合,得到所有电影的多模态数据。3.根据权利要求2所述的基于多模态数据的电影类型预测方法,其特征在于:所述将每部电影的文本和视频特征、海报特征和音频特征进行融合,得到所有电影的多模态数据,方法包括:将每部电影的文本和视频特征O
TV
转换为与海报特征O
P
和音频特征O
A
相同的维度空间h,得到多模态特征F,表示为:其中,经过维度空间转换的文本和视频特征;将所述多模态特征F沿转换后的维度空间h进行连接以获得f
i
∈R
m
×
h
,其中,m表示模态数目;通过第一线性矩阵W
q
获得查询矩阵Q
i
=f
i
W
q
,通过第二线性矩阵W
k
获得关键矩阵K
i
=f
i
W
k
,通过第三线性矩阵W
v
获得值矩阵V
i
=f
i
W
v
;根据所述查询矩阵Q
i
和关键矩阵K
i
计算模态间注意矩阵P
i
,公式为:其中,softmax(
·
)表示注意力函数;T表示矩阵转置,P
i
∈R
m
×
m
,R表示向量空间,P
i
表示在第i部电影中三种模态互相之间的关注度;根据所述模态间注意矩阵P
i
构和值矩阵V
i
构建注意力聚合,表示为P
i
V
i
;将所述注意力聚合P
i
V
i
后的多模态特征F进行向量化,得到O
i
,并对多模态特征F添加残差连接,公式为:O
i
=Vec(P
i
V
i
+f
i
),其中,Vec(
·
)表示将特征矩阵按行展开,O
i
∈R1×
mh
;将所有电影的O
i
进行聚合,表示为:O={O1,O2,...,O
N
},其中,O表示所有电影的多模态数据。4.根据权利要求1所述的基于多模态数据的电影类型预测方法,其特征在于:所述步骤S1中的文本嵌入、视频嵌入、海报嵌入和音频嵌入的公式分别为:S1中的文本嵌入、视频嵌入、海报嵌入和音频嵌入的公式分别为:S1中的文本嵌入、视频嵌入、海报嵌入和音频嵌入的公式分别为:
其中,BertEmbed(
·
)表示对文本数据进行嵌入采用的基于Bert的嵌入模块,表示第i部电影的文本数据M
t
的文本嵌入,SwinSmall(
·
)表示对视频数据或海报进行嵌入采用的SwinTransformer中的SwinSmall层,表示第i个视频帧的视频嵌入,M
p
表示海报数据,表示第i部电影的海报嵌入,Wav2Vec2(
·
)表示对音频数据进行嵌入采用的Wav2Vec2层,表示第i部电影的音频嵌入。5.根据...

【专利技术属性】
技术研发人员:杨晓瑞陈伟赵雷
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1