一种基于词向量数据驱动的商品智能推荐方法技术

技术编号:15764244 阅读:129 留言:0更新日期:2017-07-06 04:04
本发明专利技术公开了一种基于词向量数据驱动的商品智能推荐方法,包括数据预处理、词向量生成、构建预测评分模型、模型训练和预测评分步骤;该方法在训练模型时,采取词向量方法,将用户编号、商品编号及商品评分作为有语义的词,先通过独热编码将其变为稀疏向量,然后乘以权重矩阵将高维且稀疏的原始向量映射到一个稠密、连续、固定维度且维度低的特征空间,再将此作为输入在深度模型中进行训练得到模型各层的权重参数,用训练好的模型对新用户对于商品的喜好程度进行预测与评分,进而完成对用户进行商品的智能推荐;本发明专利技术提供的方法将对文本分类的词向量方法应用在基于电商平台的用户对商品喜好程度的评分预测和商品推荐中,在确保精度的同时,也能提供较好的可解释性。

A method of commodity intelligent recommendation based on word vector data

The invention discloses a commodity recommendation method based on data driven intelligent word vector, including data preprocessing, word vector generation, to construct the predictive scoring model, model training and prediction score step; in the training model, take the word vector method, the user number, item number and commodity score as semantic words first, turn it into a sparse vector by one hot encoding, and then multiplied by the weight matrix of the high dimensional and sparse original vector mapping into the feature space of a dense, continuous, and low dimension fixed dimension, then the input as training in depth in the model get the weight parameters of each layer of the model, with good training the model of new users to predict the score and the preference for the goods, and then complete the intelligent recommendation goods to users; the invention provides a method for text The classified word vector method is applied to the scoring, forecasting and commodity recommendation of customers based on the electronic business platform, which can provide better interpretability at the same time.

【技术实现步骤摘要】
一种基于词向量数据驱动的商品智能推荐方法
本专利技术属于人工智能
,更具体地,涉及一种基于词向量数据驱动的商品智能推荐方法。
技术介绍
随着互联网的发展,电子商务作为新兴产业应运而生,电子商务把商品从实体店搬运到网络的虚拟环境中,使得用户足不出户就可以购物。虚拟购物降低了卖家的成本,提高了买家的购物体验。但对于网络购物的用户来说,网络上纷繁多样的商品给挑选带来了麻烦。解决这一问题的方法就是使用推荐系统为用户进行个性化的物品推荐。传统的个性化推荐系统有协同过滤算法、KNN聚类算法、因子模型、受限玻尔兹曼机等。这些传统方法往往精确度不够高,不能完成精确推荐的目的。词向量(Word2vec)方法是Google公司在2013年开源的一款将词表征为实数值向量的高效工具,利用深度学习的思想,通过训练把对文本内容的处理简化为K维向量空间中的向量运算,利用向量空间上的相似度来表示文本语义上的相似度;Word2vec输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性分析等等。将词向量的方法应用在推荐系统上,可提供高精确度的推荐,给用户更好的体验。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于词向量数据驱动的商品智能推荐方法,其目的在于提供一种可用于电子商务平台的简单、有效、高精度的商品智能推荐方法。为实现上述目的,按照本专利技术的一个方面,提供了一种基于词向量数据驱动的商品智能推荐方法,包括如下步骤:(1)预处理步骤:将用户的购买行为日志及对商品评分数据按比例随机分为训练数据和测试数据;对训练数据中的异常数据、重复数据进行筛除,对缺失值数据进行填充或者筛除,对商品评分数据进行归一化处理,得到预处理的数据;其中,商品评分数据通过统计用户对商品的评分获得;(2)词向量生成步骤:将预处理的数据中的用户编号和商品编号作为训练数据,分别进行独热编码处理,再乘以权重矩阵,将用户编号和商品编号分别映射到低维、稠密的特征空间中形成词向量;再将用户词向量和商品词向量进行融合,得到第一融合词向量;其中,权重矩阵采用随机初始化的权重矩阵;(3)模型训练步骤:将上述的第一融合词向量、归一化后的商品评分数据作为模型训练数据,构建模型的输入层、若干隐藏层、输出层,指定损失函数、最优解方法、激活函数,进行训练,得到模型各层的权重;(4)商品评分预测步骤:对测试数据中的异常数据、重复数据进行筛除,对缺失值数据进行填充或者筛除,得到预处理后的测试集;将测试集中的用户编号和物品编号作为步骤(2)训练数据,进入步骤(2),得到第二融合词向量;将第二融合词向量作为模型训练数据,输入到步骤(3)所训练好的模型,得到用户对新商品的归一化预测评分,将该归一化预测评分进行反归一化处理,得到预测评分。优选地,上述基于词向量数据驱动的商品智能推荐方法,其步骤(2)包括以下子步骤:(2.1)独热编码:把每一个用户编号作为一个词,由所有的用户编号组成一个用户字段,用一个维度为用户数的向量对每一个用户编号进行唯一标识,获得稀疏矩阵;其中,向量只包括一个为1的分量,其他分量全为0,分量1所对应的位置为该用户在用户字典中的位置;(2.2)初始化权重矩阵:随机设置权重矩阵的初始值;(2.3)将稀疏向量转为词向量:将步骤(2.1)独热编码得到的稀疏矩阵乘上步骤(2.2)中所设置的初始权重矩阵,将原始的稀疏、高维向量映射到稠密、低维的特征空间中,分别获得用户词向量和商品词向量;(2.4)平整向量:将步骤(2.3)获得的低维的用户词向量和商品词向量分别平铺为一维向量;(2.5)向量融合步骤:将步骤(2.4)获得的一维的商品词向量和用户词向量采用连接的方式进行融合,获得融合词向量;所述连接的方式是指在商品词向量后面追加用户词向量,合为一个词向量。优选地,上述基于词向量数据驱动的商品智能推荐方法,其步骤(3)包括以下子步骤:(3.1)随机输入置零:采用随机选取的方式将步骤(2)得到的第一融合词向量中的部分元素根据一定比例置零,以防止过拟合;该比例小于0.5;(3.2)设定隐藏层参数:设置网络深度、每层神经元数目以及激活函数;(3.3)前向传播:将每一层的输入数据乘以权重矩阵,并加上偏置量,计算得到该层的输出值;其中,偏置量在最初设置神经网络参数时进行随机初始化,在参数训练中自动更新为较优的结果;(3.4)采用批量梯度下降法对神经网络每层的参数进行反向传播求解。优选地,上述基于词向量数据驱动的商品智能推荐方法,其步骤(4)包括以下子步骤:(4.1)对测试集的用户编号、商品编号作为步骤(2)的输入,获得融合词向量;(4.2)将上述融合词向量作为输入数据,输入至步骤(3)得到的已训练模型中,获得归一化的预测评分;(4.3)根据反归一化方程将预测评分从[0,1]转换为正常的评分值区域中。优选地,上述基于词向量数据驱动的商品智能推荐方法,其步骤(4.3)还包括以下子步骤:根据下式将反归一化后获得的float型评分转换为int型,其中S为评分最大值,t为反归一化后的float评分值,ROUND(t,-1)是取评分t四舍五入得到的整数。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)本专利技术所提供的基于词向量数据驱动的商品智能推荐方法,把用户编号、商品编号看作词,把词当做特征,通过Word2vec方法把特征映射为稠密空间的词向量,为文本数据寻求更加深层次的特征表示,再运用深度神经网络模型进行对未知商品进行评分预测,为系统向用户进行智能商品推荐提供依据,具有较高的精确度和可解释性;(2)本专利技术所提供的基于词向量数据驱动的商品智能推荐方法,对输入样本评分项先进行归一化,在预测后进行反归一化,并进行取整处理,具有进一步提高精确度的效果。附图说明图1是实施例提供的基于词向量数据驱动的商品智能推荐方法的流程示意图;图2是实施例提供的基于词向量数据驱动的商品智能推荐方法进行预处理的流程示意图;图3是实施例提供的基于词向量数据驱动的商品智能推荐方法的词向量生成流程示意图;图4是实施例提供的基于词向量数据驱动的商品智能推荐方法的单神经元示意图;图5是实施例提供的基于词向量数据驱动的商品智能推荐方法的神经网络结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。实施例提供的基于词向量数据驱动的商品智能推荐方法,其流程如图1所示,包括以下步骤:(1)预处理步骤,其具体流程如图2所示;本实施例中以NetflixPrize竞赛中的CF数据集为例来进行阐述;CF数据集的数据格式为[uid,iid,score];其中,uid是用户编号,为整数类型;iid是商品编号,为整数类型;score是用户对商品评分,为整数,共5档,分别为[1,2,3,4,5],评分越高表示对商品评价越好;由于输入的数据量过大,直接将原始数据加载至内存的方式对硬件要求会计较高,浪费大量内存;因此采用流读入的方式,将原始数据的某一个样本数据读入进行处本文档来自技高网...
一种基于词向量数据驱动的商品智能推荐方法

【技术保护点】
一种基于词向量数据驱动的商品智能推荐方法,其特征在于,包括如下步骤:(1)将用户的购买行为日志及对商品评分数据按比例随机分为训练数据和测试数据;对训练数据中的异常数据、重复数据进行筛除,对缺失值数据进行填充或者筛除,对商品评分数据进行归一化处理,得到预处理的数据;(2)将预处理的数据中的用户编号和商品编号作为训练数据,分别进行独热编码处理,再通过乘以权重矩阵将用户编号和商品编号分别映射到低维、稠密的特征空间中形成词向量;并将用户词向量和商品词向量进行融合,得到第一融合词向量;(3)将所述第一融合词向量、归一化后的商品评分数据作为模型训练数据,构建模型的输入层、若干隐藏层、输出层,指定损失函数、最优解方法、激活函数,进行训练,得到模型各层的权重;(4)对测试数据中的异常数据、重复数据进行筛除,对缺失值数据进行填充或者筛除,得到预处理后的测试集;将所述测试集中的用户编号和物品编号作为步骤(2)训练数据,进入步骤(2),得到第二融合词向量;将所述第二融合词向量作为模型训练数据,输入到步骤(3)所训练好的模型,得到用户对新商品的归一化预测评分;并将所述归一化预测评分进行反归一化处理,得到预测评分。...

【技术特征摘要】
1.一种基于词向量数据驱动的商品智能推荐方法,其特征在于,包括如下步骤:(1)将用户的购买行为日志及对商品评分数据按比例随机分为训练数据和测试数据;对训练数据中的异常数据、重复数据进行筛除,对缺失值数据进行填充或者筛除,对商品评分数据进行归一化处理,得到预处理的数据;(2)将预处理的数据中的用户编号和商品编号作为训练数据,分别进行独热编码处理,再通过乘以权重矩阵将用户编号和商品编号分别映射到低维、稠密的特征空间中形成词向量;并将用户词向量和商品词向量进行融合,得到第一融合词向量;(3)将所述第一融合词向量、归一化后的商品评分数据作为模型训练数据,构建模型的输入层、若干隐藏层、输出层,指定损失函数、最优解方法、激活函数,进行训练,得到模型各层的权重;(4)对测试数据中的异常数据、重复数据进行筛除,对缺失值数据进行填充或者筛除,得到预处理后的测试集;将所述测试集中的用户编号和物品编号作为步骤(2)训练数据,进入步骤(2),得到第二融合词向量;将所述第二融合词向量作为模型训练数据,输入到步骤(3)所训练好的模型,得到用户对新商品的归一化预测评分;并将所述归一化预测评分进行反归一化处理,得到预测评分。2.如权利要求1所述的商品智能推荐方法,其特征在于,所述步骤(2)包括以下子步骤:(2.1)把每一个用户编号作为一个词,由所有的用户编号组成一个用户字段,用一个维度为用户数的向量对每一个用户编号进行唯一标识,获得稀疏矩阵;其中,向量只包括一个为1的分量,其他分量全为0,分量1所对应的位置为该用户在用户字典中的位置;(2.2)随机...

【专利技术属性】
技术研发人员:邹腊梅高亚红杨卫东李晓光曹治国熊紫华陈婷李鹏
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1