当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于相似度修正的半隐式多模态推荐方法技术

技术编号:23890800 阅读:45 留言:0更新日期:2020-04-22 06:23
本发明专利技术提供的一种基于相似度修正的半隐式多模态推荐方法,包括:获取用户交互信息,包括图像信息和文本信息;提取图像视觉特征和文本特征;根据图像视觉特征、文本特征计算每个用户各条目间的兴趣相关系数,得到用户对每个条目的预测评分;计算相似度修正损失函数,对兴趣相关系数生成网络进行参数更新;利用更新后的兴趣相关系数生成网络得到每个用户各条目间的兴趣相关系数,完成用户对每个条目的修正后的预测评分。本发明专利技术提供的半隐式多模态推荐方法,利用非交互项与交互项之间的相似程度,对现有网络损失函数中非交互项条目对应的期望评分进行修正,有效缓解非交互项期望评分简单置零带来的凸路径消失和梯度方向准确度下降的问题。

【技术实现步骤摘要】
一种基于相似度修正的半隐式多模态推荐方法
本专利技术涉及信息推荐
,更具体的,涉及一种基于相似度修正的半隐式多模态推荐方法。
技术介绍
推荐系统中的信息种类日趋多样化,文本、图像和视频等多种模态的非结构化数据所占比重越来越大。然后,由于不同模态之间的表示差异,很难有效的使用非结构化的多模态数据来提高推荐系统的效率。另一方面,深度学习中的表示学习对于低层次数据中提取高层次特征非常有效,尤其是对于非结构化数据,它提供了一种向量化的方式来对各模态数据进行理解。将非结构化信息之间的关系描述为结构化特征之间的关系,将抽象感念向量化,使得推荐系统具有更好的准确性和可解释性。针对具有多种模态特征的推荐系统,JUNMEILV[1]等在各模态间增加知识共享处理模块,使经过表示学习后的各个模态信息能够相互作用,而不是传统的加权平均处理。兴趣相关网络中引入了基于条目相似度的神经注意力模型,用以学习交互项的不同重要性,并重新设计注意机制的形式,以解决不同用户交互项数目的差异巨大的问题。该论文中,包含图像与文本两种模态数据的兴趣相关系数生成网络如图2所示。如图2,经过表示学习模型,图像和文本数据被分别预处理为2048维、768维的特征向量。在嵌入层中,通过参数矩阵、条目图像特征和文本特征被映射成长度为嵌入尺寸的向量(嵌入尺寸为训练前规定的较小值,使向量更稠密,减小参数规模和学习成本),并作为兴趣相关网络的输入。一般地,在隐式推荐方法中,参数估计的目标可理解为使得训练集中的交互项获得的预测评分趋于1,而非交互项获得的预测评分趋于0。然而,将非交互项的期望评分简单地规定为0,会使训练过程中的梯度下降遇到问题。对两个特征高度相似的条目而言,若它们分别出现在同一用户的交互项集合和非交互项集合当中,训练目标应为使处于交互项集合的条目的预测评分尽可能趋于1,而与该条目高度相似但处于非交互项集合中的条目的预测评分却期望趋于0,这样一组矛盾可能使得凸路径消失,一定程度上降低了梯度下降的准确性。
技术实现思路
本专利技术为克服现有的推荐系统中直接将非交互项的期望评分规定为0,存在引起凸路径消失、降低系统梯度方向准确性的技术缺陷,提供一种基于相似度修正的半隐式多模态推荐方法。为解决上述技术问题,本专利技术的技术方案如下:一种基于相似度修正的半隐式多模态推荐方法,包括以下步骤:S1:获取用户交互信息,包括图像信息和文本信息,进行数据准备;S2:对图像信息和文本信息进行特征提取,得到图像视觉特征和文本特征;S3:基于兴趣相关系数生成网络,根据图像视觉特征、文本特征计算得到每个用户各条目间的兴趣相关系数,得到用户对每个条目的预测评分;S4:根据预测评分计算相似度修正损失函数,利用相似度修正损失函数对兴趣相关系数生成网络进行参数更新;S5:利用更新后的兴趣相关系数生成网络得到每个用户各条目间的兴趣相关系数,完成用户对每个条目的修正后的预测评分。其中,所述步骤S1具体包括:S11:通过MovieLens获取用户交互信息,包括图像信息和文本信息;S12:从交互信息中随机抽取一个作为测试集的正例,其与交互信息作为训练集中的正例;S13:选取未与该用户发生交互的非交互信息作为测试集的负例,再随机抽取若干非交互信息加入训练集中作为负例,使得训练集中的正例和负例比值为1:4,完成数据的准备。其中,在所述步骤S2中,使用ResNet50模型提取图像信息的图像视觉特征,使用自然语言处理模型BERT提取文本信息的文本特征。其中,所述步骤S3具体包括以下步骤:S31:将图像视觉特征预处理为2048维的特征向量,将文本特征预处理为768维特征向量;S32:对于条目i、条目j对应的图像视觉特征、文本特征分别表示为vi,ti,vj,tj,对于用户u的条目i、条目j兴趣相关系数的计算公式具体为:式中,W1、W2、W3、W4、b、h为基本参数,β为超参数,f(·)为激活函数,利用兴趣相关系数auij计算用户u对于条目j的预测评分具体计算公式为:式中,表示用户u所有交互项的集合,pi、qi来源于特征向量,α为超参数。其中,所述步骤S4具体为:S31:对于用户u对应的交互信息i,其损失函数为:其中,表示预测评分;考虑到同一用户的相似条目拥有相近的期望评分,将损失函数表示为:式中,rui取对应的非交互项和所有交互项相似度的平均值;S32:利用特征向量余弦相似度表征相似度,条目i、条目j的余弦相似度计算公示具体为:其中,vi,vj为2048维的图像视觉特征,ti,tj为768维的文本特征向量;S33:根据步骤S31、步骤S32,对某一用户的训练集中的某一条目而言,rui的计算公式为:S34:利用余弦相似度、rui的计算式对现有的损失函数进行修正,得到相似度修正损失函数,具体表示为:S35:以式为损失函数,用Adam优化器进行训练,以最小化损失函数为原则更新兴趣相关系数生成网络的所有参数。其中,在所述步骤S34中,所述的现有的损失函数具体表达式为:其中,所述步骤S5具体为,将测试集作为更新参数后的相关系数生成网络的输入参数,得到每个用户各条目间的兴趣相关系数,完成用户对每个条目的修正后的预测评分。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术提供的一种基于相似度修正的半隐式多模态推荐方法,利用非交互项与交互项之间的相似程度,对现有网络损失函数中非交互项条目对应的期望评分进行修正,有效缓解非交互项期望评分简单置零带来的凸路径消失和梯度方向准确度下降的问题,提升了梯度方向的准确度。附图说明图1为本专利技术所述方法流程图;图2为包含两种模态数据情况下的兴趣相关系数生成网络结构示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1如图1所示,一种基于相似度修正的半隐式多模态推荐方法,包括以下步骤:S1:获取用户交互信息,包括图像信息和文本信息,进行数据准备;S2:对图像信息和文本信息进行特征提取,得到图像视觉特征和文本特征;S3:基于兴趣相关系数生成网络,根据图像视觉特征、文本特征计算得到每个用户各条目间的兴趣相关系数,得到用户对每个条目的预测评分;S4:根据预测评分计算相似度修正损失函数,利用相似度修正损失函数对兴趣相关系数生成网络进行参数更新;S5:利用更新后的兴趣相关系数生成网络得到每个用户各条目间的兴趣相关系数,完成用户对每个条目的本文档来自技高网
...

【技术保护点】
1.一种基于相似度修正的半隐式多模态推荐方法,其特征在于,包括以下步骤:/nS1:获取用户交互信息,包括图像信息和文本信息,进行数据准备;/nS2:对图像信息和文本信息进行特征提取,得到图像视觉特征和文本特征;/nS3:基于兴趣相关系数生成网络,根据图像视觉特征、文本特征计算得到每个用户各条目间的兴趣相关系数,得到用户对每个条目的预测评分;/nS4:根据预测评分计算相似度修正损失函数,利用相似度修正损失函数对兴趣相关系数生成网络进行参数更新;/nS5:利用更新后的兴趣相关系数生成网络得到每个用户各条目间的兴趣相关系数,完成用户对每个条目的修正后的预测评分。/n

【技术特征摘要】
1.一种基于相似度修正的半隐式多模态推荐方法,其特征在于,包括以下步骤:
S1:获取用户交互信息,包括图像信息和文本信息,进行数据准备;
S2:对图像信息和文本信息进行特征提取,得到图像视觉特征和文本特征;
S3:基于兴趣相关系数生成网络,根据图像视觉特征、文本特征计算得到每个用户各条目间的兴趣相关系数,得到用户对每个条目的预测评分;
S4:根据预测评分计算相似度修正损失函数,利用相似度修正损失函数对兴趣相关系数生成网络进行参数更新;
S5:利用更新后的兴趣相关系数生成网络得到每个用户各条目间的兴趣相关系数,完成用户对每个条目的修正后的预测评分。


2.根据权利要求1所述的一种基于相似度修正的半隐式多模态推荐方法,其特征在于,所述步骤S1具体包括:
S11:通过MovieLens获取用户交互信息,包括图像信息和文本信息;
S12:从交互信息中随机抽取一个作为测试集的正例,其与交互信息作为训练集中的正例;
S13:选取未与该用户发生交互的非交互信息作为测试集的负例,再随机抽取若干非交互信息加入训练集中作为负例,使得训练集中的正例和负例比值为1:4,完成数据的准备。


3.根据权利要求2所述的一种基于相似度修正的半隐式多模态推荐方法,其特征在于,在所述步骤S2中,使用ResNet50模型提取图像信息的图像视觉特征,使用自然语言处理模型BERT提取文本信息的文本特征。


4.根据权利要求3所述的一种基于相似度修正的半隐式多模态推荐方法,其特征在于,所述步骤S3具体包括以下步骤:
S31:将图像视觉特征预处理为2048维的特征向量,将文本特征预处理为768维特征向量;
S32:对于条目i、条目j对应的图像视觉特征、文本特征分别表示为vi,ti,vj,tj,对于用户u的条目i、条目j兴趣相关系数的计算公式具体为:


...

【专利技术属性】
技术研发人员:张琳张逸钿
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1