一种基于用户偏好异构性分析的推荐方法技术

技术编号:21892047 阅读:20 留言:0更新日期:2019-08-17 14:34
本发明专利技术公开了一种基于用户偏好异构性分析的推荐方法,步骤为:对Amazon公开数据集及进行数据筛选,得到符合要求的数据集;对处理好的文本数据进行分词分句并对文本数据进行词向量训练和名词短语提取;使用深度学习框架构建推荐系统模型;把预先处理好的文本数据分成训练集和测试集,使用构建好的模型对训练集进行训练,并对训练好的模型应用于测试集进行评价得到最优的推荐模型。本发明专利技术采用联合学习网络结构,分别处理文本多粒度信息的特征学习网络,还有用来学习用户和项目关联信息的协同过滤网络,数据处理中使用Spacy来提取名词性短语,并通过Word2Vec学习词语特征向量,减少输入网络的数据维度增强网络的推荐精度。

A Recommendation Method Based on Heterogeneity Analysis of User Preferences

【技术实现步骤摘要】
一种基于用户偏好异构性分析的推荐方法
本专利技术属于计算机深入学习和推荐系统的
,尤其涉及一种基于用户偏好异构性分析的推荐方法。
技术介绍
到2020年全球产生的数据量将达到惊人的35.2ZB,这意味着数据对人们生活的影响越来越大,人们无时无刻在产生数据。其中隐藏的信息量非常巨大。如果能拿到相关行业的数据加以分析并应用一定会对相关行业的发展产生很大的影响。可是如何提取其中有用的信息就成了一个很大的问题。因此推荐系统应运而生,其核心是通过借助用户交互数据来对用户的偏好特征进行分析,然后预测用户对其他物品的喜好程度。可是由于交互数据的稀疏性,有很多预测数据并不能很好的体现用户的真实偏好。所以如何增加推荐系统的推荐精度,并且如何解决冷启动问题等一系列问题正在成为推荐系统领域的热点研究方向。基于短文本分析的推荐方法以其能够直接反映用户主观喜好的特点受到了很多研究人员的关注。目前,利用短文本信息做推荐主要有两方面的研究,一是使用短文本进行情感识别,通过对短文本的极性判别来预测用户对项目的偏好的极性(如喜欢/不喜欢)。另外一种研究是使用短文本进行用户评分的预测。近些年,针对短文本的研究有了很大进展。其中有人利用word2vec词向量来改进词性特征,也有人人使用LDA主题模型对文本进行分类。还有人利用贝叶斯网络对文本进行层次化话题构建,在保证准确率的情况下扩充了原内容。近几年,随着深度学习的发展,出现了基于深度学习的短文本分析方法。比如有人把word2vec和CNN网络相结合来挖掘不同层次的语义信息从而发现句子中更高抽象级别的特征。一些热把情感分析和传统推荐方法结合发现用户的兴趣特征。另一些研究人员使用元数据结合深度学习模型来改善推荐系统性能。但是以上方法虽然使用了评论文本却仅仅是把文本转变成单一向量来进行训练分析没有考虑到本身文本结构和词性的影响。这些方法均是基于独立同分布的假设,即假设文本对于反映每个用户的偏好所起的作用是一样的,其很难通过短文本充分挖掘用户的个性化偏好。
技术实现思路
基于以上现有技术的不足,本专利技术所解决的技术问题在于提供一种基于用户偏好异构性分析的推荐方法,通过考虑文本结构和词性的不同,来发现用户评论文本中隐藏的用户的异构性偏好,提升推荐性能。为了解决上述技术问题,本专利技术通过以下技术方案来实现:本专利技术提供一种基于用户偏好异构性分析的推荐方法,包括以下步骤:步骤1:对Amazon公开数据集及进行数据筛选,得到符合要求的数据集;步骤2:对处理好的文本数据进行分词分句并对文本数据进行词向量训练和名词短语提取;步骤3:使用深度学习框架构建推荐系统模型;步骤4:把预先处理好的文本数据分成训练集和测试集,使用步骤3构建的模型对训练集进行训练,并对训练好的模型应用于测试集进行评价得到最优的推荐模型。优选的,在步骤1中对数据筛选的步骤如下:步骤1.1:利用Python读取原始json数据文件并转换成CSV文件;步骤1.2:然后从中筛选用户评论总数大于10条的数据,同时去除文本数据过长的数据。在步骤2中的词向量训练和名词性短语提取步骤如下:步骤2.1:利用Gensim的Word2Vec方法来进行词向量的训练;步骤2.2:使用Spacy库进行句子的名词性短语提取。进一步的,步骤3中的深度学习框架构建步骤如下:步骤3.1:对步骤1和步骤2.2处理的词语,名词性短语,句子进行分通道,学习其中用户对于不同粒度的偏好特征,然后把不同粒度的文本通道连接起来学习用户对评论物品的个性化偏好特征;步骤3.2:对步骤1.2处理之后的UserId和ItemId进行初步学习并使用深度学习协同过滤分析用户对所评论项目的偏好特征公式如下:fu=WuU+bufi=WiI+bi其中W表示模型训练UserId和ItemId所对应的权重,b对应相应的偏置项,然后进行整体特征的学习,然后把fu和fi的结果连接起来作为一个整体作为整体协同过滤子网络的输出,其中代表fu和fi的输出结果按照行连接在一起,最后模型左边的输出为:步骤3.3:把步骤3.2所生成的两部分神经网络综合在一起进行联合学习最终输出用户对项目的个性化偏好,预测公式如下:其中predict是输出的用户的偏好结果,Sigmoid是用户情感二分类函数,Wp是联合学习的网络权重,fui是协同过滤的学习结果,ftext是文本特异性偏好,bp是预测偏置项。可选的,步骤4中模型应用于测试集评价的步骤如下:步骤4.1:在步骤3的测试集中,一个UserId选取一条标签正例的数据并依照数据的每一个属性给它增加99个负例样本产生一个新的测试集;步骤4.2:在步骤3.3已经训练好的推荐模型中输入步骤4.1中新生成的测试集。可选的,步骤3中深度学习框架构建还包括:步骤5.1:使用Keras框架搭建神经网络构建输入层,输入层包括五个输入内容;步骤5.2:搭建文本特征处理子网络,使用步骤2.1训练好的词向量作为文本特征学习网络的嵌入层的初始化权重,并固定权重不做训练;步骤5.3:搭建协同过滤子网络,使用嵌入层来让数字Userid和Itemid进行向量化操作;步骤5.4:联合学习,把文本特征处理子网络和协同过滤子网络的输出通过Concatenate层连接起来送入全连接层进行学习然后使用Sigmoid作为激活函数输出user通过短文本评论对于物品item的偏好结果。由上,本专利技术的基于用户偏好异构性分析的推荐方法至少具有如下有益效果:(1)通过对短文本进行词语,短语,句子三种粒度的分析从而可以从中得到用户的异构性偏好。(2)将情感分析和基于深度学习的协同过滤组成联合推荐系统提高了推荐系统的推荐质量。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例的附图作简单地介绍。图1为本专利技术的基于用户偏好异构性分析的推荐方法的模型结构图;图2为本专利技术中的Spacy库解析句子树样例图;图3为本专利技术中的Gensim的Word2Vec的CBOW模型图;图4为本专利技术的评价结果图,随着推荐列表大小K的增大命中率HR的变化;图5为本专利技术中的评价结果图,随着推荐列表大小K的增大归一化折损累计增益的变化;图6为本专利技术和其他模型结果对比图,随着推荐列表大小K的增大命中率HR的变化;图7为本专利技术和其他模型结果对比图,随着推荐列表大小K的增大归一化折损累计增益的变化。具体实施方式下面结合附图详细说明本专利技术的具体实施方式,其作为本说明书的一部分,通过实施例来说明本专利技术的原理,本专利技术的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。如图1至图7所示,本专利技术的基于用户偏好异构性分析的推荐方法,包括如下步骤:步骤1:对Amazon公开数据集及进行数据筛选,得到符合要求的数据集,其中,对数据筛选的步骤如下:步骤1.1:从网上下载Amazon数据集,利用Python读取原始json数据文件并转换成CSV文件;步骤1.2:然后从中筛选用户评论总数大于10条的数据,同本文档来自技高网
...

【技术保护点】
1.一种基于用户偏好异构性分析的推荐方法,其特征在于,包括以下步骤:步骤1:对Amazon公开数据集及进行数据筛选,得到符合要求的数据集;步骤2:对处理好的文本数据进行分词分句并对文本数据进行词向量训练和名词短语提取;步骤3:使用深度学习框架构建推荐系统模型;步骤4:把预先处理好的文本数据分成训练集和测试集,使用步骤3构建的模型对训练集进行训练,并对训练好的模型应用于测试集进行评价得到最优的推荐模型。

【技术特征摘要】
1.一种基于用户偏好异构性分析的推荐方法,其特征在于,包括以下步骤:步骤1:对Amazon公开数据集及进行数据筛选,得到符合要求的数据集;步骤2:对处理好的文本数据进行分词分句并对文本数据进行词向量训练和名词短语提取;步骤3:使用深度学习框架构建推荐系统模型;步骤4:把预先处理好的文本数据分成训练集和测试集,使用步骤3构建的模型对训练集进行训练,并对训练好的模型应用于测试集进行评价得到最优的推荐模型。2.如权利要求1所述的基于用户偏好异构性分析的推荐方法,其特征在于,在步骤1中对数据筛选的步骤如下:步骤1.1:利用Python读取原始json数据文件并转换成CSV文件;步骤1.2:然后从中筛选用户评论总数大于10条的数据,同时去除文本数据过长的数据。3.如权利要求1所述的基于用户偏好异构性分析的推荐方法,其特征在于,在步骤2中的词向量训练和名词性短语提取步骤如下:步骤2.1:利用Gensim的Word2Vec方法来进行词向量的训练;步骤2.2:使用Spacy库进行句子的名词性短语提取。4.如权利要求1所述的基于用户偏好异构性分析的推荐方法,其特征在于,步骤3中的深度学习框架构建步骤如下:步骤3.1:对步骤1和步骤2.2处理的词语,名词性短语,句子进行分通道,学习其中用户对于不同粒度的偏好特征,然后把不同粒度的文本通道连接起来学习用户对评论物品的个性化偏好特征;步骤3.2:对步骤1.2处理之后的UserId和ItemId进行初步学习并使用深度学习协同过滤分析用户对所评论项目的偏好特征公式如下:fu=WuU+bufi=WiI+bi其中W表示模型训练UserId和ItemId所对应的权...

【专利技术属性】
技术研发人员:张全贵靳赫李鑫
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1