一种基于词向量数据驱动的商品智能推荐方法技术

技术编号：15764244 阅读：129 留言：0更新日期：2017-07-06 04:04

本发明专利技术公开了一种基于词向量数据驱动的商品智能推荐方法，包括数据预处理、词向量生成、构建预测评分模型、模型训练和预测评分步骤；该方法在训练模型时，采取词向量方法，将用户编号、商品编号及商品评分作为有语义的词，先通过独热编码将其变为稀疏向量，然后乘以权重矩阵将高维且稀疏的原始向量映射到一个稠密、连续、固定维度且维度低的特征空间，再将此作为输入在深度模型中进行训练得到模型各层的权重参数，用训练好的模型对新用户对于商品的喜好程度进行预测与评分，进而完成对用户进行商品的智能推荐；本发明专利技术提供的方法将对文本分类的词向量方法应用在基于电商平台的用户对商品喜好程度的评分预测和商品推荐中，在确保精度的同时，也能提供较好的可解释性。

A method of commodity intelligent recommendation based on word vector data

The invention discloses a commodity recommendation method based on data driven intelligent word vector, including data preprocessing, word vector generation, to construct the predictive scoring model, model training and prediction score step; in the training model, take the word vector method, the user number, item number and commodity score as semantic words first, turn it into a sparse vector by one hot encoding, and then multiplied by the weight matrix of the high dimensional and sparse original vector mapping into the feature space of a dense, continuous, and low dimension fixed dimension, then the input as training in depth in the model get the weight parameters of each layer of the model, with good training the model of new users to predict the score and the preference for the goods, and then complete the intelligent recommendation goods to users; the invention provides a method for text The classified word vector method is applied to the scoring, forecasting and commodity recommendation of customers based on the electronic business platform, which can provide better interpretability at the same time.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词向量数据驱动的商品智能推荐方法
本专利技术属于人工智能
，更具体地，涉及一种基于词向量数据驱动的商品智能推荐方法。
技术介绍
随着互联网的发展，电子商务作为新兴产业应运而生，电子商务把商品从实体店搬运到网络的虚拟环境中，使得用户足不出户就可以购物。虚拟购物降低了卖家的成本，提高了买家的购物体验。但对于网络购物的用户来说，网络上纷繁多样的商品给挑选带来了麻烦。解决这一问题的方法就是使用推荐系统为用户进行个性化的物品推荐。传统的个性化推荐系统有协同过滤算法、KNN聚类算法、因子模型、受限玻尔兹曼机等。这些传统方法往往精确度不够高，不能完成精确推荐的目的。词向量(Word2vec)方法是Google公司在2013年开源的一款将词表征为实数值向量的高效工具，利用深度学习的思想，通过训练把对文本内容的处理简化为K维向量空间中的向量运算，利用向量空间上的相似度来表示文本语义上的相似度；Word2vec输出的词向量可以被用来做很多NLP相关的工作，比如聚类、找同义词、词性分析等等。将词向量的方法应用在推荐系统上，可提供高精确度的推荐，给用户更好的体验。
技术实现思路
针对现有技术的以上缺陷或改进需求，本专利技术提供了一种基于词向量数据驱动的商品智能推荐方法，其目的在于提供一种可用于电子商务平台的简单、有效、高精度的商品智能推荐方法。为实现上述目的，按照本专利技术的一个方面，提供了一种基于词向量数据驱动的商品智能推荐方法，包括如下步骤：(1)预处理步骤：将用户的购买行为日志及对商品评分数据按比例随机分为训练数据和测试数据；对训练数据中的异常数据、重复数据进行筛...

【技术保护点】
一种基于词向量数据驱动的商品智能推荐方法，其特征在于，包括如下步骤：(1)将用户的购买行为日志及对商品评分数据按比例随机分为训练数据和测试数据；对训练数据中的异常数据、重复数据进行筛除，对缺失值数据进行填充或者筛除，对商品评分数据进行归一化处理，得到预处理的数据；(2)将预处理的数据中的用户编号和商品编号作为训练数据，分别进行独热编码处理，再通过乘以权重矩阵将用户编号和商品编号分别映射到低维、稠密的特征空间中形成词向量；并将用户词向量和商品词向量进行融合，得到第一融合词向量；(3)将所述第一融合词向量、归一化后的商品评分数据作为模型训练数据，构建模型的输入层、若干隐藏层、输出层，指定损失函数、最优解方法、激活函数，进行训练，得到模型各层的权重；(4)对测试数据中的异常数据、重复数据进行筛除，对缺失值数据进行填充或者筛除，得到预处理后的测试集；将所述测试集中的用户编号和物品编号作为步骤(2)训练数据，进入步骤(2)，得到第二融合词向量；将所述第二融合词向量作为模型训练数据，输入到步骤(3)所训练好的模型，得到用户对新商品的归一化预测评分；并将所述归一化预测评分进行反归一化处理，得到预测评分。...

【技术特征摘要】
1.一种基于词向量数据驱动的商品智能推荐方法，其特征在于，包括如下步骤：(1)将用户的购买行为日志及对商品评分数据按比例随机分为训练数据和测试数据；对训练数据中的异常数据、重复数据进行筛除，对缺失值数据进行填充或者筛除，对商品评分数据进行归一化处理，得到预处理的数据；(2)将预处理的数据中的用户编号和商品编号作为训练数据，分别进行独热编码处理，再通过乘以权重矩阵将用户编号和商品编号分别映射到低维、稠密的特征空间中形成词向量；并将用户词向量和商品词向量进行融合，得到第一融合词向量；(3)将所述第一融合词向量、归一化后的商品评分数据作为模型训练数据，构建模型的输入层、若干隐藏层、输出层，指定损失函数、最优解方法、激活函数，进行训练，得到模型各层的权重；(4)对测试数据中的异常数据、重复数据进行筛除，对缺失值数据进行填充或者筛除，得到预处理后的测试集；将所述测试集中的用户编号和物品编号作为步骤(2)训练数据，进入步骤(2)，得到第二融合词向量；将所述第二融合词向量作为模型训练数据，输入到步骤(3)所训练好的模型，得到用户对新商品的归一化预测评分；并将所述归一化预测评分进行反归一化处理，得到预测评分。2.如权利要求1所述的商品智能推荐方法，其特征在于，所述步骤(2)包括以下子步骤：(2.1)把每一个用户编号作为一个词，由所有的用户编号组成一个用户字段，用一个维度为用户数的向量对每一个用户编号进行唯一标识，获得稀疏矩阵；其中，向量只包括一个为1的分量，其他分量全为0，分量1所对应的位置为该用户在用户字典中的位置；(2.2)随机...

【专利技术属性】
技术研发人员：邹腊梅，高亚红，杨卫东，李晓光，曹治国，熊紫华，陈婷，李鹏，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人