一种基于深度学习的多模态图文推荐方法及设备技术

技术编号:29223653 阅读:21 留言:0更新日期:2021-07-10 01:06
本发明专利技术公开一种基于深度学习的多模态图文推荐方法及设备,方法包括用一种跨模态图文检索模型MMDNN,其次,将MMDNN用于推荐系统之中,利用正负反馈聚类中心计算模块PNFCCCM和用户的正负反馈历史记录,计算用户的正负反馈聚类中心,结合数据的相似度得分和正负反馈得分,从数据库中找出与用户历史记录中综合得分最高的几条数据,使用MMDNN模型从数据库中找出与这几条数据对应的另一种模态的数据,最后,把成对图

【技术实现步骤摘要】
一种基于深度学习的多模态图文推荐方法及设备


[0001]本专利技术属于计算机科学与技术应用领域,具体涉及一种基于深度学习的多模态图文推荐方法及设备。

技术介绍

[0002]目前,大多数推荐系统都侧重于提供单一模式的内容,如利用图片推荐图片,利用文本推荐文本。事实上,图片和文本不同的形式的资源,在描述相同的语义时存在着不平衡和互补的关系,图像通常可以包含更多文本无法显示的细节,文本具有表达高层次意义的优势。所以,用户更需要多模态结合的信息资源,跨模态检索技术更令人关注。跨模态检索是根据用户输入一种模式的信息,它可以返回多种模式结合信息的一种技术。目前,许多跨模态检索方法还仅仅只应用在检索领域,还未见将其应用到推荐系统领域。并且这些跨模态检索方法存在检索精度不足,耗费时间较长等缺点。大部分的推荐系统仅仅考虑了用户正反馈的情况,其中用户的负反馈记录中同样存在着许多可以利用的信息,因此,有必要提升跨模态检索方法的质量和效率。

技术实现思路

[0003]为了解决现有技术中存在的问题,本专利技术提供一种基于深度学习的多模态图文推荐方法及设备,通过设计一种高效的跨模态图文检索方法,并将其应用到推荐系统之中,实现根据用户的个人偏好,向用户推荐其所需要的图文结合的信息资源的目的。
[0004]为了实现上述目的,本专利技术采用的技术方案是,一种基于深度学习的多模态图文推荐方法,包括以下步骤:
[0005]基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点,所述历史记录包括图像和文本;
[0006]从用户历史记录中挑选出用户评分较高的前N条历史记录;
[0007]提取所述N条历史记录的特征,根据所述特征得到N条历史记录的所属类别;
[0008]用跨模态检索模型从与所述N条历史记录模态相同的数据库中提取同类型的数据;
[0009]计算所提取同类型的数据和所述N个历史记录的相似度得分,将所述相似度得分按照倒序排列,选取前M项相似度得分对应的历史记录;
[0010]使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数;
[0011]根据M项相似度得分中每一项的相似度得分及所述正反馈分数和负反馈分数,计算所述M项历史记录中每一项数据的总得分,并按照所述总得分倒序排列,选取前K个数据;
[0012]针对所述K个数据中的每一项数据,用跨模态检索模型从文本数据库或图像数据库中找到与之对应的K个数据;
[0013]将所述前K个数据和文本数据库或图像数据库中的K个数据对应结合,形成K项图


文本对,即得到推荐结果。
[0014]跨模态检索模型用于数据特征的提取,跨模态检索模型训练的过程分为两个阶段:
[0015]在第一个阶段,对于图像,提取图像模态内的表示和带有文本信息的图像模态间的表示;对于文本,提取文本模态内的表示和带有图像信息的文本模态间的表示;
[0016]在第二个阶段,把图像模态内的表示和图像模态间的表示结合起来,形成图像综合表示;同时,把文本模态内的表示和文本模态间的表示结合起来,形成文本综合表示,然后利用栈式对应自编码器和约束函数在图像和文本的综合表示之间建立联系,同时学习到图像和文本的最终表示。
[0017]跨模态检索模型通过以下过程进行训练得到:
[0018]采用去除了最后一层分类层的MobileNetV3

large模型来初步提取图像特征,在初步提取图像特征的基础上,一方面用AE来提取图像模态内的表示,既具有模态内信息的图像模态内表示;一方面使用RBM提取得到图像进一步的表示,该图像进一步的表示将被用来形成具有文本信息的图像模态间表示;
[0019]使用TF

IDF算法来初步提取文本特征;在初步提取文本特征的基础上一方面使用DAE提取文本模态内的表示,即具有模态内信息的文本模态内表示;一方面使用RSRBM提取得到文本进一步的表示,该文本进一步的表示将被用来形成具有图像信息的文本模态间表示;
[0020]基于所述图像进一步的表示和文本进一步的表示,本专利技术用Multimodal DBN来提取图像和文本的模态间表示;在Multimodal DBN的顶层,在图像和文本表示之间进行交替的吉布斯采样,即获得带有文本特征的图像模态间表示和带有图像特征的文本模态间表示;
[0021]利用两个joint

RBM模型融合每种模态的模态内表示和模态间表示,
[0022]一个joint

RBM模型将图像模态内表示和图像模态间表示进行融合,得到图像的综合表示;另一个joint

RBM模型,将具有文本模态内表示和文本模态间表示进行融合,得到文本的综合表示;
[0023]分别用两个DAE对所述图像的综合表示和所述文本的综合表示分别做分类训练,以提取图像和文本特征的最佳隐藏层数;
[0024]固定所提取的图像和文本的最佳隐藏层数,并使图像和文本的最佳隐藏层数一一对齐,组成栈式对应自编码器;
[0025]在栈式对应自编码器中,使用关联约束函数,重新利用第二阶段图像的综合表示和第二阶段文本的综合表示训练所述栈式对应自编码器,使得所述栈式对应自编码器在得到图像和文本最终表示的同时,能够在图像和文本的表示之间建立联系。
[0026]用Multimodal DBN来提取图像和文本模态间的表示时:先将文本的初步表示输入RSRBM模型,RSRBM能量函数为:
[0027][0028]其中,v
i
为输入层第i个节点的值,h
j
为隐藏层第j个节点的值,w
ij
为输入层和隐藏
层之间的权重,b
i
为第i输入层第i个节点的偏置,a
j
是隐藏层第j个节点的偏置,m是可见层离散值的总和;
[0029]将RSRBM模型的输出作为Multimodal DBN的文本输入,将所述文本输入通过两个隐藏层处理,所述两个隐藏层的节点数分别为2048和1024,激活函数设置为sigmoid激活函数;然后,在Multimodal DBN的联合层,使用下公式进行交替的吉布斯采样,获得具有模态间信息的特征表示,
[0030][0031][0032]σ(x)=1/(1+e

x
)
[0033]和用于生成每种模态数据上的分布,为图像输入的第1层隐藏层,σ()为sigmoid激活函数,为图像第2层上的权重,a
t
为文本最后一层的偏置,为文本输入的第2层隐藏层,为文本第2层隐藏层上的权重,a
i
为图像最后一层的偏置,x为激活函数的输入,e为自然数。
[0034]所述关联约束函数为:
[0035][0036]其中,和图像和文本的输入,和代表了图像和文本的参数,和为图像和文本隐藏层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的多模态图文推荐方法,其特征在于,包括以下步骤:基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点,所述历史记录包括图像和文本;从用户历史记录中挑选出用户评分较高的前N条历史记录;提取所述N条历史记录的特征,根据所述特征得到N条历史记录的所属类别;用跨模态检索模型从与所述N条历史记录模态相同的数据库中提取同类型的数据;计算所提取同类型的数据和所述N个历史记录的相似度得分,将所述相似度得分按照倒序排列,选取前M项相似度得分对应的历史记录;使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数;根据M项相似度得分中每一项的相似度得分及所述正反馈分数和负反馈分数,计算所述M项历史记录中每一项数据的总得分,并按照所述总得分倒序排列,选取前K个数据;针对所述K个数据中的每一项数据,用跨模态检索模型从文本数据库或图像数据库中找到与之对应的K个数据;将所述前K个数据和文本数据库或图像数据库中的K个数据对应结合,形成K项图像

文本对,即得到推荐结果。2.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,跨模态检索模型用于数据特征的提取,跨模态检索模型训练的过程分为两个阶段:在第一个阶段,对于图像,提取图像模态内的表示和带有文本信息的图像模态间的表示;对于文本,提取文本模态内的表示和带有图像信息的文本模态间的表示;在第二个阶段,把图像模态内的表示和图像模态间的表示结合起来,形成图像综合表示;同时,把文本模态内的表示和文本模态间的表示结合起来,形成文本综合表示,然后利用栈式对应自编码器和约束函数在图像和文本的综合表示之间建立联系,同时学习到图像和文本的最终表示。3.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,跨模态检索模型通过以下过程进行训练得到:采用去除了最后一层分类层的MobileNetV3

large模型来初步提取图像特征,在初步提取图像特征的基础上,一方面用AE来提取图像模态内的表示,既具有模态内信息的图像模态内表示;一方面使用RBM提取得到图像进一步的表示,该图像进一步的表示将被用来形成具有文本信息的图像模态间表示;使用TF

IDF算法来初步提取文本特征;在初步提取文本特征的基础上一方面使用DAE提取文本模态内的表示,即具有模态内信息的文本模态内表示;一方面使用RSRBM提取得到文本进一步的表示,该文本进一步的表示将被用来形成具有图像信息的文本模态间表示;基于所述图像进一步的表示和文本进一步的表示,本发明用Multimodal DBN来提取图像和文本的模态间表示;在Multimodal DBN的顶层,在图像和文本表示之间进行交替的吉布斯采样,即获得带有文本特征的图像模态间表示和带有图像特征的文本模态间表示;利用两个joint

RBM模型融合每种模态的模态内表示和模态间表示,一个joint

RBM模型将图像模态内表示和图像模态间表示进行融合,得到图像的综合表示;另一个joint

RBM模型,将具有文本模态内表示和文本模态间表示进行融合,得到文
本的综合表示;分别用两个DAE对所述图像的综合表示和所述文本的综合表示分别做分类训练,以提取图像和文本特征的最佳隐藏层数;固定所提取的图像和文本的最佳隐藏层数,并使图像和文本的最佳隐藏层数一一对齐,组成栈式对应自编码器;在栈式对应自编码器中,使用关联约束函数,重新利用第二阶段图像的综合表示和第二阶段文本的综合表示训练所述栈式对应自编码器,使得所述栈式对应自编码器在得到图像和文本最终表示的同时,能够在图像和文本的表示之间建立联系。4.根据权利要求3所述的基于深度学习的多模态图文推荐方法,其特征在于,用Multimodal DBN来提取图像和文本模态间的表示时:先将文本的初步表示输入RSRBM模型,R...

【专利技术属性】
技术研发人员:黄昭胡浩武
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1