基于多模态预训练模型的资讯推荐方法及设备技术

技术编号:37266144 阅读:7 留言:0更新日期:2023-04-20 23:37
本发明专利技术公开了一种基于多模态预训练模型的资讯推荐方法,其特征在于它包括以下步骤:S1、对待推荐资讯、历史点击资讯集合中的内容分别进行多模态编码;S2、输入跨模态注意力网络,获得用户向量表示;S3、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量与用户向量表示结合,获得待推荐资讯的相关性得分;S4、根据相关性得分对待排序资讯排序,得分高的资讯表示与用户兴趣更匹配,优先推荐高得分资讯,实现资讯推荐。本发明专利技术所使用的推荐方法,融合了多模态数据信息,并建立了跨模态注意力网络对多模态数据信息进行融合。以综合考虑多因素影响,实现用户感兴趣咨询的精准推送。实现用户感兴趣咨询的精准推送。实现用户感兴趣咨询的精准推送。

【技术实现步骤摘要】
基于多模态预训练模型的资讯推荐方法及设备


[0001]本专利技术属于大数据领域,具体是一种基于多模态预训练模型的资讯推荐方法及设备。

技术介绍

[0002]随着互联网技术和应用的不断发展,互联网资讯内容呈现爆炸式的增长。为了在海量信息中为用户准确推荐感兴趣的内容,个性化推荐服务已经广泛应用于电商、社交、资讯等各互联网平台。此外,同一个互联网平台会包含文本、图片、视频等多种形式的资讯内容。
[0003]传统的资讯推荐方法主要基于文本内容进行推荐。专利CN201510509331.2提出一种新闻推荐方法,将文本相似度较高的新闻分为一个类簇,并将每个类簇存储于数据库中,当需要推荐新闻时,将该新闻对应的类簇中的其他新闻推荐给用户。然而,除了标题、内容等文本信息之外,资讯的封面图片等图像信息,也是用户是否点击的一个影响因素。
[0004]现有的多模态推荐方法主要通过分别对文本、图像、音频等模态数据进行特征编码,然后再通过拼接等方式对多种模态的特征表示进行融合,通过融合的多模态特征进行内容推荐。专利CN201910606172.6基于图像模态、音频模态和文本模态分别构建用户

内容图结构,通过相应图卷积神经网络的聚合层分别计算表达各个模态的用户及内容,利用相应图卷积神经网络的融合层合并用户及内容的各个模态的表达,得到用户和内容的最终表达。现有方法不能很好地学习到跨模态特征的统一表示,并且需要大量的标注数据进行训练。

技术实现思路

[0005]本专利技术基于
技术介绍
中存在的问题,提出了一种基于多模态预训练模型的资讯推荐方法及设备。
[0006]技术方案:
[0007]本专利技术首先公开了一种基于多模态预训练模型的资讯推荐方法,它包括以下步骤:
[0008]S1、对待推荐资讯、历史点击资讯集合中的内容分别进行多模态编码,获取待推荐资讯的文本表示向量、待推荐资讯的图像表示向量、历史点击资讯的文本表示向量、历史点击资讯的图像表示向量;
[0009]S2、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量、历史点击资讯的文本表示向量、历史点击资讯的图像表示向量输入跨模态注意力网络,获得用户向量表示;
[0010]S3、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量与用户向量表示结合,获得待推荐资讯的相关性得分;
[0011]S4、根据相关性得分对待排序资讯排序,得分高的资讯表示与用户兴趣更匹配,优先推荐高得分资讯,实现资讯推荐。
[0012]优选的,S1的具体步骤包括:
[0013]S1

1、输入数据准备,输入数据包资讯的文本模态数据和图像模态数据,其中:
[0014]抽取文本内容的关键词,将标题、标签、关键词拼接获得文本模态数据;
[0015]提取视频关键帧获得图像数据,资讯的封面图片、视频中提取的关键帧作为图像模态数据;
[0016]资讯包括待推荐资讯和历史点击资讯;
[0017]S1

2、特征提取,分别获得文本的词序列、图像特征序列;
[0018]S1

3、使用视觉语言预训练模型对文本特征序列和图像特征序列进行跨模态关系表示建模,获取词表示序列H
t
和ROI表示序列H
p

[0019]S1

4、词表示序列通过文本注意力网络学习,获得文本表示向量;ROI表示序列通过视觉注意力网络学习,获得图像表示向量。
[0020]优选的,S1

2中,文本特征序列的获取方法为:使用jieba分词,得到一个词序列[w1,w2,...,w
M
],其中M为词序列中词的个数。
[0021]优选的,S1

2中,图像特征序列的获取方法为:
[0022]首先,利用预训练的MaskR

CNN模型获取图像的感兴趣区域;
[0023]然后,利用ResNet

50模型提取ROI特征,得到图像特征序列[e1,e2,...,e
N
],其中N为ROI序列中的ROI个数。
[0024]具体的,S1

3中,视觉语言预训练模型为ViLBERT,将S1

2获得的文本的词序列、图像特征序列作为视觉语言预训练模型的输入,获得视觉语言预训练模型的输出为词表示序列H
t
和ROI表示序列H
p

[0025]S1

4中,具体的:
[0026]文本表示向量:r
t
2H
t
×
a
t
,式中,a
t
为文本注意力权重;
[0027]图像表示向量:r
p
=H
p
×
a
p
,式中,a
p
为视觉注意力权重。
[0028]具体的:
[0029]a
t
=softmax[(W
t
H
t
)
T
q
t
][0030]a
p
=softmax[(W
p
H
p
)
T
q
p
][0031]式中,W
t
和W
p
为参数矩阵(网络参数,初始值随机确定,训练过程中不断更新),q
t
和q
p
为注意力query向量(表示序列H中的每个特征为一个query向量)。
[0032]优选的,S2中,具体步骤为:
[0033]S2

1、使用跨模态注意力网络,计算待推荐资讯与历史点击资讯的跨模态相关性:
[0034]文本

文本注意力权重
[0035]文本

图像注意力权重
[0036]图像

文本注意力权重
[0037]图像

图像注意力权重
[0038]式中,权重值表示相关性的大小;R
t
表示历史点击资讯的文本表示向量,表示待推荐资讯的文本表示向量,R
p
表示历史点击资讯的图像表示向量,表示待推荐资讯的图
像表示向量;其中z=(z1,...,z
K
)∈R
K

[0039]S2

2、用户向量表示u=R
t
×
(a
t,p
+a
p,p
)+R
p
×
(a
p,t
+a
t,t
)。
[0040]具体的,S3中,待推荐资讯得分为:
[0041本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态预训练模型的资讯推荐方法,其特征在于它包括以下步骤:S1、对待推荐资讯、历史点击资讯集合中的内容分别进行多模态编码,获取待推荐资讯的文本表示向量、待推荐资讯的图像表示向量、历史点击资讯的文本表示向量、历史点击资讯的图像表示向量;S2、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量、历史点击资讯的文本表示向量、历史点击资讯的图像表示向量输入跨模态注意力网络,获得用户向量表示;S3、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量与用户向量表示结合,获得待推荐资讯的相关性得分;S4、根据相关性得分对待排序资讯排序,得分高的资讯表示与用户兴趣更匹配,优先推荐高得分资讯,实现资讯推荐。2.根据权利要求1所述的方法,其特征在于S1的具体步骤包括:S1

1、输入数据准备,输入数据包资讯的文本模态数据和图像模态数据,其中:抽取文本内容的关键词,将标题、标签、关键词拼接获得文本模态数据;提取视频关键帧获得图像数据,资讯的封面图片、视频中提取的关键帧作为图像模态数据;资讯包括待推荐资讯和历史点击资讯;S1

2、特征提取,分别获得文本的词序列、图像特征序列;S1

3、使用视觉语言预训练模型对文本特征序列和图像特征序列进行跨模态关系表示建模,获取词表示序列H
t
和ROI表示序列H
p
;S1

4、词表示序列通过文本注意力网络学习,获得文本表示向量;ROI表示序列通过视觉注意力网络学习,获得图像表示向量。3.根据权利要求2所述的方法,其特征在于S1

2中,文本特征序列的获取方法为:使用jieba分词,得到一个词序列[w1,w2,...,w
M
],其中M为词序列中词的个数。4.根据权利要求2所述的方法,其特征在于S1

2中,图像特征序列的获取方法为:首先,利用预训练的MaskR

CNN模型获取图像的感兴趣区域;然后,利用ResNet

50模型提取ROI特征,得到图像特征序列[e1,e2,...,e
N
],其中N为ROI序列中的ROI个数。5.根据权利要求2所述的方法,其特征在于S1

3中,视觉语言预训练模型为ViLBERT,将S1

2获得的文本的词序列、图像特征序列作为视觉语言预训练模型的输入,获得视觉语言预训练模型的输出为词表示序列H
t
和ROI表示序列H
p
。6.根据权利要求2所述的方法,...

【专利技术属性】
技术研发人员:侯旭郑茂盛杜向阳
申请(专利权)人:南京擎盾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1