一种基于深度学习的个性化文本推荐方法技术

技术编号:24331239 阅读:53 留言:0更新日期:2020-05-29 19:40
本发明专利技术涉及一种基于深度学习的个性化文本推荐方法,包括以下步骤:S1:用户浏览新闻的历史行为数据和文本数据预处理;S2:特征提取器建模,具体包括:S21:隐藏层设计;S22:输出层设计;S3:个性化推荐模型建模,具体包括:S31:一维卷积网络层设计;S32:分类输出层与损失函数设计。本发明专利技术有效的解决了操作数据稀疏性的问题,并且通过使用负采样技术增强了模型训练效率;引入浏览时长作为全局变量,通过最终的目的来优化编码效果;通过利用项目嵌入的编码方式,进而有效的解决了项目冷启动的问题;减少了深层结构,增加并行的层次结构,卷积层内权重共享,参数相对较少。

A personalized text recommendation method based on deep learning

【技术实现步骤摘要】
一种基于深度学习的个性化文本推荐方法
本专利技术属于文本推荐
,涉及一种基于深度学习的个性化文本推荐方法。
技术介绍
推荐系统是人与信息的连接器,用以有的用户特征以及用户过往的交互去预测用户与信息内容未来可能的交互行为。推荐系统根据不同的用户的历史行为、用户的兴趣偏好或者用户的人口统计学特征来选择推荐算法,或建立推荐模型,使用推荐算法或模型来产生用户可能感兴趣的项目列表,并最终推送给用户。近些年,随着深度学习的研究不断发展,基于深度学习的推荐算法模型大量提出。基于深度学习的推荐模型具有许多优点:与线性模型不同,深度神经网络能够使用诸如relu、softmax、tanh等非线性激活函数对数据进行建模;深度神经网络能够从输入数据中有效地学习潜在的表示因子和高阶的特征交互,减轻了特征工程的工作,也可以有效的对稀疏数据进行重新编码和扩充;另外,深度神经网络在一些序列的模型任务中成果显著。在word2vec模型中,给定无标签序列数据的情况下,其可以为语料库中的数据个体产生一个能表达其序列含义的向量。该模型的核心思想是通过中心序列li,来预测其上下文信息li+j,li表示数据集合中的每一个中心序列样本,j表示函数运算的每一个上下文序号,窗口一般设置为5,模型的总体目标是最大化当中心序列样本发生时其上下文样本序列发生的概率,最终得到的一个由概率值表示的序列,学习到序列问题中各项目的核心意义,并且可以有效的避免高频项目对整体数据的影响。卷积神经网络中的一维卷积,也常用于序列模型中。一维指的是卷积核的维度,其尺寸为k×1,k为卷积核在时间序列上滑动的时域窗口大小。一维卷积操作经常使用在信号处理中,用于计算信号的延迟累积。假设一个信号发生器每个时刻t产生一个信号xt,其信息的衰减率为wk,即在k个时间步长后,信息为开始时的wk倍。对于要处理序列的问题,还要考虑时间的因素,不能使用普通的CNN网络,引入一种称为因果卷积的技术。因为时间序列上的一维卷积,具有输入序列到输出序列的结构,输入与输出根据时间步一一对应。因果卷积,就是对于时间序列中第t时间步的输出只能依赖于前t步的输入,为防止信息泄露,不能使用未来的信息。具体的表现就是在填充补零的方式上,在序列起始处填充(k-1)个值全为0的输入信息,其中k为卷积核窗口长度。在专利《一种基于深度学习的个性化推荐方法》中,其使用卷积神经网络进行用户的推荐,其通过卷积神经网络的嵌入层对one-hot编码后的用户操作数据进行编码,之后再对用户进行推荐。在专利《提出了一种内容推荐模型的训练方法、内容推荐的方法》中,其通过神经网络特征提取器对文本进行提取,再经过行列式点过程获取文本推荐概率,最终对用户进行推荐。专利《基于评论文本情感分析的商品推荐方法及商品推荐装置》中,其基于编码端的BiLSTM网络生成对每个特征结合上下文的状态向量;结合注意力机制,对用户文本进行建模,再利用softmax函数进行分类,生成最终的推荐列表。专利《一种基于短文本的领域动态跟踪方法》中,该方法中使用了传统的词嵌入神经网络模型,对文本进行了编码,通过将编码后的文本数据作为推荐网络的输入来完成基本的推荐。专利《一种个性化文本智能推荐方法、装置及计算机可读存储介质》中,其通过对语料文本和关键字进行词向量编码,通过传统推荐方法获得用户推荐列表。专利《文本推荐方法、装置、服务器和存储介质》中使用词频逆文档频率来对用户的评论文档进行编码,之后通过预设的优先级顺序将相关信息推荐给用户。专利《文本推荐方法和装置》中提出了一种文本推荐方法和装置,其通过计算文本相似度进行分类,再从分类中计算出热门文档,通过将热门文档推送给用户,完成整个推荐的过程。对于本专利是将操作数据进行嵌入处理,并且将嵌入模型通过引入全局变量来优化编码结果,之后将其作为推荐模型的输入,推荐模型使用卷积神经网络,模型中的卷积核均采用1维卷积,对编码后的序列数据进行有效的计算,最终计算出每个用户获得某文本的概率,选取概率较大的几篇文本形成推荐列表完成最终的推荐。综上所述,在现有的专利方法中对于数据编码方式一般使用:1.使用传统词向量模型对数据进行编码;2.使用词频逆文档模型对数据进行编码;3.使用分类模型对数据进行编码。对于推荐模型现有专利方法一般使用:1.使用卷积神经网络计算用户获得推荐物品的概率,2.使用循环神经网络和注意力机制来为用户进行推荐2.使用热门物品直接向用户进行推荐。本专利所述方法引入一个全局变量,来改进的skip-gram方法对用户操作数据进行编码,再融合卷积神经网络进行推荐的方法,还未见报道。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于深度学习的个性化推荐方法,用于新闻的推荐任务,任务目标为根据用户的浏览时序行为序列,预测用户下一篇会浏览的新闻。基本过程为使用word2vec思想,先将稀疏的浏览序列数据重新编码,再通过卷积神经网络从重新编码后的序列中来获取用户的行为习惯,根据学习到的特征来做出最终的推荐结果。为达到上述目的,本专利技术提供如下技术方案:一种基于深度学习的个性化文本推荐方法,包括以下步骤:S1:用户浏览新闻的历史行为数据和文本数据预处理;S2:特征提取器建模,具体包括:S21:隐藏层设计;S22:输出层设计;S3:个性化推荐模型建模,具体包括:S31:一维卷积网络层设计;S32:分类输出层与损失函数设计。进一步,步骤S1中,具体包括以下步骤:S11:将数据集中的点击信息数据进行预处理操作,包括缺失值处理和异常值处理;S12:按照每个用户分组形成用户浏览数据集、正采样和负采样数据集,所述正采样数据集:即该用户点击操作过的数据;所述负采样数据集:即用户从所有未点击过的数据中随机挑选出的数据;S13:按照时间戳进行排序,数据只关注用户与新闻交互的隐形反馈,即只关心用户是否浏览了某篇新闻;在正采样数据集中对于每个用户都有其相应的用户浏览序列;S14:对新闻浏览序列进行编码表示,被浏览位置使用独热码表示,使用与新闻数量相同维度的向量进行表示;对于每个点击位置,只激活新闻被点击相应位置的数据,即该位标1,其余位置为0;S15:将点击序列信息编码后的向量,作为每个用户浏览序列中一个条目的数据。进一步,在步骤S21中,将用户浏览数据集的one-hot编码输入后,在隐藏层中使用一个权重矩阵来对用户浏览序列信息编码向量降维,用于将高维稀疏向量映射到低维密集向量;权重矩阵的形式为m×n,其中m为稀疏向量的维度,n为密集向量的维度,且m大于n;隐藏层看作是重新对原始数据进行降维编码,而编码规则是通过在网络中训练权重而自动生成的。进一步,在步骤S22中,对于隐藏层中输出状态的信息,送入输出层,输出层的损失函数为条件概率函数,损失函数即为输出单词组的条件概率,损失函数公式如下:式中,L表示损失,s表示用户浏览数据集合,li表示数据集合中的每一个条件样本,j表示函数运算的每一个上下文,本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的个性化文本推荐方法,其特征在于:包括以下步骤:/nS1:用户浏览新闻的历史行为数据和文本数据预处理;/nS2:特征提取器建模,具体包括:/nS21:隐藏层设计;/nS22:输出层设计;/nS3:个性化推荐模型建模,具体包括:/nS31:一维卷积网络层设计;/nS32:分类输出层与损失函数设计。/n

【技术特征摘要】
1.一种基于深度学习的个性化文本推荐方法,其特征在于:包括以下步骤:
S1:用户浏览新闻的历史行为数据和文本数据预处理;
S2:特征提取器建模,具体包括:
S21:隐藏层设计;
S22:输出层设计;
S3:个性化推荐模型建模,具体包括:
S31:一维卷积网络层设计;
S32:分类输出层与损失函数设计。


2.根据权利要求1所述的基于深度学习的个性化文本推荐方法,其特征在于:步骤S1中,具体包括以下步骤:
S11:将数据集中的点击信息数据进行预处理操作,包括缺失值处理和异常值处理;
S12:按照每个用户分组形成用户浏览数据集、正采样和负采样数据集,所述正采样数据集:即该用户点击操作过的数据;所述负采样数据集:即用户从所有未点击过的数据中随机挑选出的数据;
S13:按照时间戳进行排序,数据只关注用户与新闻交互的隐形反馈,即只关心用户是否浏览了某篇新闻;在正采样数据集中对于每个用户都有其相应的用户浏览序列;
S14:对新闻浏览序列进行编码表示,被浏览位置使用独热码表示,使用与新闻数量相同维度的向量进行表示;对于每个点击位置,只激活新闻被点击相应位置的数据,即该位标1,其余位置为0;
S15:将点击序列信息编码后的向量,作为每个用户浏览序列中一个条目的数据。


3.根据权利要求1所述的基于深度学习的个性化文本推荐方法,其特征在于:在步骤S21中,将用户浏览数据集的one-hot编码输入后,在隐藏层中使用一个权重矩阵来对用户浏览序列信息编码向量降维,用于将高维稀疏向量映射到低维密集向量;权重矩阵的形式为m×n,其中m为稀疏向量的维度,n为密集向量的维度,且m大于n;隐藏层看作是重新对原始数据进行降维编码,而编码规则是通过在网络中训练权重而自动生成的。


4.根据权利要求1所述的基于深度学习的个性化文本推荐方法,其特征在于...

【专利技术属性】
技术研发人员:程克非郭小勇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1