当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于深度神经网络的在线内容推荐方法技术

技术编号:12782098 阅读:64 留言:0更新日期:2016-01-28 01:15
本发明专利技术公开了一种基于深度神经网络的在线内容推荐方法,在传统基于内容推荐的基础上,引入深度神经网络(Deep Neural Network,DNN)词向量工具,根据待推送内容文本信息和用户的历史行为,将内容和用户映射在高维向量空间,通过计算向量间的余弦距离,筛选过滤对推荐内容感兴趣的用户群。通过在大规模移动内容服务系统中的实验证明,本发明专利技术所提出的推荐策略相比随机推荐、ContentKNN、以及ItemCF等算法,在推荐效果上获得显著提升。

【技术实现步骤摘要】

本专利技术设及信息处理
,具体设及一种基于深度神经网络的在线内容推荐 方法。
技术介绍
伴随在线内容的不断丰富和移动互联网的快速发展,选择合适的内容推送给感 兴趣的用户,成为在线内容服务商的重要需求之一。面对的主要挑战有:1、用户特征和 内容特征的有效表示;2、个性化推荐的消息推送的精准性要求(无效的消息推送push notification过多会打扰用户、影响用户体验);3、推荐算法的复杂度适中,可W基于现有 系统进行大规模数据的运算和执行。 现有技术基于传统推荐算法缺乏对用户和内容的深度挖掘,在大规模线上场景的 实验中推荐点击率较低,W消息推送化shNotification方式推荐,因不能有效命中用户兴 趣,导致推送给大部分的消息被忽略并给用户带来被打扰的体验,不能有效实现精准化个 性化化sh推荐。例如,对于推荐系统中的新物品、新用户都存在冷启动问题。针对运样的 情况,目前大部分推荐系统会考虑使用混合模型和基于内容分析的推荐策略。传统基于内 容的推荐算法主要用到物品和用户Tag等描述信息,运些信息通常是由人工添加,不同的 人对同一事物有不同的看法,也有不同的描述方式,运样多少会造成数据的差别,从而导致 推荐效果的波动和较低的推荐CTR点击率。
技术实现思路
针对现有技术的不足,本专利技术旨在提供一种基于深度神经网络的在线内容推荐方 法,通过采用深度学习模型,基于深度神经网络对用户和在线内容进行深度分析,并通过有 效建立用户、内容的向量化表示,在通用集群上高效实现面向用户的个性化化sh推荐方 法,使推荐命中率方面获得明显提升。 为了实现上述目的,本专利技术采用如下技术方案: ,包括如下步骤: S1构建关于待推送内容的内容语料重要词汇库并对其提取关键词,然后将该内容 语料重要词汇库作为词向量工具的输入进行词向量模型训练,获得词向量模型;[000引S2利用步骤S1中得到的词向量模型构建待推送内容向量; S3基于步骤S1和步骤S2得到的词向量模型和待推送内容向量,定义用户点击已 推送的消息为正行为,用户未点击已推送的消息为负行为,建立每个用户的正行为向量模 型和负行为向量模型; S4分别计算每个用户的正行为向量模型和负行为向量模型与步骤S2得到的待推 送内容向量之间的距离,并据此确定推送目标用户。 需要说明的是,步骤S1中,通过对内容文本信息进行过滤、合并、分词、去停用词 W构建内容语料重要词汇库。 需要说明的是,步骤SI中,义用word2vec作为词向量工具,并义用服-CBOW模型 建立内容语料重要词汇库的词向量。 需要说明的是,步骤S1中,所训练的内容语料重要词汇库中包含在线内容提供商 的文本信息,每条信息包括内容本身W及描述内容的文字。 需要说明的是,步骤S1中,词向量维度设定为200维,文本窗口设定为5。 需要说明的是,步骤S2中,利用词向量在向量空间具有的加法运算性质构建待推 送内容向量,具体按照下式进行构建: 其中,Vv表示待推送内容V的向量;η为待推送内容中抽取的关键词个数;一为归 // 一化系数,归一化系数的作用在于防止不同内容提取的关键词个数不同而产生差异;Κ,为 内容V的第i个关键词通过词向量工具表示的向量。 需要说明的是,步骤S3中,在构建用户的正行为向量模型和负行为向量模式时, 作为负行为向量构建基础的负行为数据的数量为作为正行为向量构建基础的正行为数据 的1. 7倍。 进一步需要说明的是,步骤S3中,利用词向量所具有的加法运算性质并结合 TF-IDF方法构建用户的正行为向量和负行为向量,具体如下: 正行为向量化按照下式进行:[002引其中表示用户U的正行为向量,为用户U点击的内容个数、η+为内容V+的 关键词个数、--1-,-,--L-均为归一化系数,目的是为了防止不同用户点击内容个数不同,Wmη 及不同内容提取的关键词个数不同而产生差异;α,+为内容r中第i个关键词的TF-IDF权重;F%为用户点击的内容r中的第i个关键词通过词向量工具表示的向量;系数 N为对应的内容r在系统中的点击量,该系数用于降低热口内容对结果的 logil + Λ-) 偏颇影响; 负行为向量化按照下式进行:其中表示用户U的负行为向量,m为用户U没有点击的内容的个数,η为推送 内容中没有点击的内容V的关键词个数、为归一化系数,W应对不同用户没有点 r!iU 击内容个数不同,W及不同内容提取的关键词个数不同而产生差异;A为内容V中第i个 关键词的TF-IDF权重;为内容V的第i个关键词通过词向量工具表示的向量;系数hN为对应的内容r在系统中的点击量,该系数用于降低热口内容的偏颇影 k)g(j十Λ j 响。 需要说明的是,步骤S4中的具体方法如下: 4. 1)对于每个用户,分别计算其正行为向量和负行为向量与待推送内容向量之间 余弦距离X和y,并计算两者之间的比值怎=7、其中-1《X《1,-1《y《1 ; 4. 2)初始化备选用户群为包含全体用户,并对备选用户群中的用户作如下处理: 对于0《x《l且0《y《l的用户,保留P> 1的用户; 对于-1《X《0且0《y《1的用户,从备选用户群中剔除; 对于-1且-l《y《0的用户,保留P《1的用户;[003引对于0《X《1且-1《y《0的用户,全部保留在备选用户群中; 其中,X= 0表示待推送内容向量与正行为向量没有相关性,y= 0表示待推送内 容向量与负行为向量没有相关性,因此在实际情况下不存在X= 0且y= 0的情况; 4.3)计算经过步骤4. 2)筛选所得的备选用户群中每个用户的(x,y)与直线 ^ =?*之间的距离,并按降序排序,选取前Μ名作推送目标用户,其中P为选取阔值。 进一步需要说明的是,所述余弦距离X和y按照下式进行计算:[003引其中,V,为步骤S2中所得的待推送内容向量,f;:.-表示用户U的正行为向量,r_ 表示用户U的负行为向量;当X越接近1,表示用户的正行为向量和待推送内容向量越相 关,反映了用户越可能对该推送内容感兴趣,当X越接近-1,表示用户正行为向量和待推送 内容向量越不相关,反映了用户越可能对该推送内容不感兴趣;当y越接近1时,表示用户 的负行为向量和该待推送向量越相关,但反映了用户越有可能对该内容不感兴趣,而当y 越接近-1时,表示用户的负行为向量和该待推送向量越不相关,但反映了用户越可能对该 内容感兴趣;根据X,y取值的实际意义,在推送一个内容时,最理想的目标用户是X= 1,y =-1。 进一步需要说明的是,步骤S8中,P的取值为1。 本专利技术的有益效果在于:在传统基于内容推荐的基础上,引入深度神经网络值eep 化uralNetwork,DNN)词向量工具,根据待推送内容文本信息和用户的历史行为,将内容和 用户映射在高维向量空间,通过计算向量间的余弦距离,筛选过滤对推荐内容感兴趣的用 户群。基于在大规模移动内容服务系统中的实验证明,本文所提出的基于D順算法的推荐 策略,相比随机方法、ContentKNNW及ItemCF等算法,在点击率方面平均分别获得106%、 41 %和57%的相对提升,在覆盖率方面一定程度上避免了推送活跃用户的偏颇问题,从整 体上得到了较好的推荐效果。【附图说明】 图1为本专利技术的实现流本文档来自技高网...

【技术保护点】
一种基于深度神经网络的在线内容推荐方法,其特征在于:包括如下步骤:S1构建关于待推送内容的内容语料重要词汇库并对其提取关键词,然后将该内容语料重要词汇库作为词向量工具的输入进行词向量模型训练,获得词向量模型;S2利用步骤S1中得到的词向量模型构建待推送内容向量;S3基于步骤S1和步骤S2得到的词向量模型和待推送内容向量,定义用户点击已推送的消息为正行为,用户未点击已推送的消息为负行为,建立每个用户的正行为向量模型和负行为向量模型;S4分别计算每个用户的正行为向量模型和负行为向量模型与步骤S2得到的待推送内容向量之间的距离,并据此确定推送目标用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈亮王娜李霞
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1