【技术实现步骤摘要】
一种基于深度学习的多模态图文推荐方法及设备
[0001]本专利技术属于计算机科学与技术应用领域,具体涉及一种基于深度学习的多模态图文推荐方法及设备。
技术介绍
[0002]目前,大多数推荐系统都侧重于提供单一模式的内容,如利用图片推荐图片,利用文本推荐文本。事实上,图片和文本不同的形式的资源,在描述相同的语义时存在着不平衡和互补的关系,图像通常可以包含更多文本无法显示的细节,文本具有表达高层次意义的优势。所以,用户更需要多模态结合的信息资源,跨模态检索技术更令人关注。跨模态检索是根据用户输入一种模式的信息,它可以返回多种模式结合信息的一种技术。目前,许多跨模态检索方法还仅仅只应用在检索领域,还未见将其应用到推荐系统领域。并且这些跨模态检索方法存在检索精度不足,耗费时间较长等缺点。大部分的推荐系统仅仅考虑了用户正反馈的情况,其中用户的负反馈记录中同样存在着许多可以利用的信息,因此,有必要提升跨模态检索方法的质量和效率。
技术实现思路
[0003]为了解决现有技术中存在的问题,本专利技术提供一种基于深度学习的多模态图文推荐方法及设备,通过设计一种高效的跨模态图文检索方法,并将其应用到推荐系统之中,实现根据用户的个人偏好,向用户推荐其所需要的图文结合的信息资源的目的。
[0004]为了实现上述目的,本专利技术采用的技术方案是,一种基于深度学习的多模态图文推荐方法,包括以下步骤:
[0005]基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点,所述历史记录包括图像和文本; ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的多模态图文推荐方法,其特征在于,包括以下步骤:基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点,所述历史记录包括图像和文本;从用户历史记录中挑选出用户评分较高的前N条历史记录;提取所述N条历史记录的特征,根据所述特征得到N条历史记录的所属类别;用跨模态检索模型从与所述N条历史记录模态相同的数据库中提取同类型的数据;计算所提取同类型的数据和所述N个历史记录的相似度得分,将所述相似度得分按照倒序排列,选取前M项相似度得分对应的历史记录;使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数;根据M项相似度得分中每一项的相似度得分及所述正反馈分数和负反馈分数,计算所述M项历史记录中每一项数据的总得分,并按照所述总得分倒序排列,选取前K个数据;针对所述K个数据中的每一项数据,用跨模态检索模型从文本数据库或图像数据库中找到与之对应的K个数据;将所述前K个数据和文本数据库或图像数据库中的K个数据对应结合,形成K项图像
‑
文本对,即得到推荐结果。2.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,跨模态检索模型用于数据特征的提取,跨模态检索模型训练的过程分为两个阶段:在第一个阶段,对于图像,提取图像模态内的表示和带有文本信息的图像模态间的表示;对于文本,提取文本模态内的表示和带有图像信息的文本模态间的表示;在第二个阶段,把图像模态内的表示和图像模态间的表示结合起来,形成图像综合表示;同时,把文本模态内的表示和文本模态间的表示结合起来,形成文本综合表示,然后利用栈式对应自编码器和约束函数在图像和文本的综合表示之间建立联系,同时学习到图像和文本的最终表示。3.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,跨模态检索模型通过以下过程进行训练得到:采用去除了最后一层分类层的MobileNetV3
‑
large模型来初步提取图像特征,在初步提取图像特征的基础上,一方面用AE来提取图像模态内的表示,既具有模态内信息的图像模态内表示;一方面使用RBM提取得到图像进一步的表示,该图像进一步的表示将被用来形成具有文本信息的图像模态间表示;使用TF
‑
IDF算法来初步提取文本特征;在初步提取文本特征的基础上一方面使用DAE提取文本模态内的表示,即具有模态内信息的文本模态内表示;一方面使用RSRBM提取得到文本进一步的表示,该文本进一步的表示将被用来形成具有图像信息的文本模态间表示;基于所述图像进一步的表示和文本进一步的表示,本发明用Multimodal DBN来提取图像和文本的模态间表示;在Multimodal DBN的顶层,在图像和文本表示之间进行交替的吉布斯采样,即获得带有文本特征的图像模态间表示和带有图像特征的文本模态间表示;利用两个joint
‑
RBM模型融合每种模态的模态内表示和模态间表示,一个joint
‑
RBM模型将图像模态内表示和图像模态间表示进行融合,得到图像的综合表示;另一个joint
‑
RBM模型,将具有文本模态内表示和文本模态间表示进行融合,得到文
本的综合表示;分别用两个DAE对所述图像的综合表示和所述文本的综合表示分别做分类训练,以提取图像和文本特征的最佳隐藏层数;固定所提取的图像和文本的最佳隐藏层数,并使图像和文本的最佳隐藏层数一一对齐,组成栈式对应自编码器;在栈式对应自编码器中,使用关联约束函数,重新利用第二阶段图像的综合表示和第二阶段文本的综合表示训练所述栈式对应自编码器,使得所述栈式对应自编码器在得到图像和文本最终表示的同时,能够在图像和文本的表示之间建立联系。4.根据权利要求3所述的基于深度学习的多模态图文推荐方法,其特征在于,用Multimodal DBN来提取图像和文本模态间的表示时:先将文本的初步表示输入RSRBM模型,R...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。