一种用于稀疏大数据的个性化推荐方法和装置制造方法及图纸

技术编号:15822719 阅读:64 留言:0更新日期:2017-07-15 04:55
本发明专利技术公开一种用于稀疏大数据的个性化推荐方法和装置,通过用户历史行为数据库可以获取到用户与商品之间产生的行为记录,所以能高效、全面的搜寻到相关数据,从而生成用户与商品之间的行为矩阵,在用户与商品之间产生的行为记录较为稀疏时,通过商品之间的相似性将行为矩阵中的所有商品划分到商品簇集中的相应商品簇内,计算用户对各个商品簇的归属度,因此可以使用归属度来刻画用户,用户对商品簇的归属度可以使得每个用户的特征更加显著,基于归属度计算的用户的相似性更加精确,提高协同过滤中基于相似用户推荐的准确性。由于归属度矩阵的商品簇维度远远小于行为矩阵中商品的维度,大大节省用户相似性计算的时间和空间资源,提高推荐效率。

【技术实现步骤摘要】
一种用于稀疏大数据的个性化推荐方法和装置
本专利技术涉及计算机
,具体涉及一种用于稀疏大数据的个性化推荐方法和装置。
技术介绍
随着互联网的飞速发展,目前已经开始出现很多的个性化推荐服务,这些个性化推荐服务能够根据用户的历史行为记录推荐给用户最可能符合其兴趣的信息。现有技术中存在一种协同过滤的个性化推荐方法,该方法认为用户的兴趣在一段时间内是不变的,据此可以向用户推荐与其兴趣相似的用户感兴趣的商品,所以通常的推荐过程包括相似性计算和推荐产生两个步骤。用户的历史行为作为特征被用来刻画用户,然后根据用户间的相似性进行推荐。但是在实际应用中,用户和内容的规模都异常庞大。其中,内容指在实际的系统中向用户推荐的商品、音乐、视频、电子书籍等。用户的行为分布很不均匀,通常遵循幂律分布或韦伯分布,大部分用户只有少量的行为,对于单个用户,有过相应行为的内容相对所有内容是非常稀疏的,当用户行为较稀疏时,用户之间的共同行为往往比较少或者根本没有共同行为,所给出的这些推荐数据只能从较少的维度来刻画和了解一个用户,很难充分判断出用户的属性、消费水平及兴趣爱好等,因此推荐的结果是不充分的,甚至不够准确。在本文档来自技高网...
一种用于稀疏大数据的个性化推荐方法和装置

【技术保护点】
一种用于稀疏大数据的个性化推荐方法,其特征在于,包括:从用户历史行为数据库中获取用户与商品之间产生的行为记录;根据所述用户与商品之间产生的行为记录生成行为矩阵,所述行为矩阵中的每个元素对应一个用户对一个商品产生的行为数据,所述行为矩阵中的每一行表示一个用户的特征向量,所述行为矩阵中的每一列表示一个商品的特征向量;根据所述行为矩阵中所有商品之间的相似性将所述所有商品分别划分到商品簇集中相应的商品簇内,所述商品簇集中包括多个商品簇;计算所述行为矩阵中所有用户对所述商品簇集的归属度矩阵,所述归属度矩阵中的每一行表示一个用户对所述商品簇集中所有商品簇的归属度向量,所述归属度向量中的各个归属度值分别表示...

【技术特征摘要】
1.一种用于稀疏大数据的个性化推荐方法,其特征在于,包括:从用户历史行为数据库中获取用户与商品之间产生的行为记录;根据所述用户与商品之间产生的行为记录生成行为矩阵,所述行为矩阵中的每个元素对应一个用户对一个商品产生的行为数据,所述行为矩阵中的每一行表示一个用户的特征向量,所述行为矩阵中的每一列表示一个商品的特征向量;根据所述行为矩阵中所有商品之间的相似性将所述所有商品分别划分到商品簇集中相应的商品簇内,所述商品簇集中包括多个商品簇;计算所述行为矩阵中所有用户对所述商品簇集的归属度矩阵,所述归属度矩阵中的每一行表示一个用户对所述商品簇集中所有商品簇的归属度向量,所述归属度向量中的各个归属度值分别表示一个用户对一个商品簇的喜好程度;根据所述每个用户对应的归属度矩阵中的归属度向量计算所述行为矩阵中用户之间的相似性,并根据计算得到所述用户之间的相似性对所述行为矩阵中的用户进行个性化推荐。2.根据权利要求1所述的方法,其特征在于,所述根据所述行为矩阵中所有商品之间的相似性将所述所有商品分别划分到商品簇集中相应的商品簇内,包括:步骤a、获取商品簇集中k个商品簇的当前均值向量{μ1,μ2,...,μk},所述k表示商品簇集中的商品簇个数;步骤b、计算所述行为矩阵中商品Ii分别与所述k个商品簇的当前均值向量之间的距离,将所述商品Ii归入与所述商品Ii之间距离取值最小的当前均值向量对应的商品簇,所述Ii表示所述行为矩阵中的任意一个商品的特征向量;步骤c、当所述行为矩阵中所有商品都归入到所述商品簇集中的一个商品簇之后,通过如下计算方式重新计算所述商品簇集中k个商品簇的均值向量:其中,所述μ′i表示重新计算得到的所述商品簇集中第i个商品簇的均值向量,所述|ci|表示第i个商品簇中的商品个数,所述Ij表示所述行为矩阵中第j个商品的特征向量;步骤d、判断所述重新计算得到的均值向量μ′i和第i个商品簇的当前均值向量μi之间的差值是否大于预置的误差门限,若所述μ′i和所述μi之间的差值大于所述误差门限,将所述μi更新为重新计算得到的μ′i,否则不更新所述μi,通过步骤d的方式再次获取当前商品簇集中k个商品簇的均值向量;步骤e、重复依次执行步骤a至步骤d,当所述商品簇集中k个商品簇的更新前后的均值向量之间的差值总和小于或等于预置的第一误差总门限时,停止执行前述步骤a至步骤d的迭代过程,确定所述商品簇集中k个商品簇的当前均值向量为k个商品簇的代表向量,输出最终形成的商品簇集,其中,最终形成的商品簇集中每个商品簇至少包括所述行为矩阵中的一个商品。3.根据权利要求2所述的方法,其特征在于,在所述步骤a执行之前,所述方法还包括:从所述行为矩阵中随机选择k个商品的特征向量作为商品簇集中k个商品簇的初始均值向量,所述k个商品中的一个商品的特征向量作为所述商品簇集中一个商品簇的初始均值向量,在首次执行步骤a时,将所述k个商品簇的初始均值向量作为k个商品簇的当前均值向量。4.根据权利要求1所述的方法,其特征在于,所述根据所述行为矩阵中所有商品之间的相似性将所述所有商品分别划分到商品簇集中相应的商品簇内,包括:步骤1、将所述行为矩阵中每个商品的特征向量依次输入自组织特征映射SOM模型的输入层中,所述SOM模型包括:所述输入层和输出层,所述输出层包括:k个原型节点,每个所述原型节点代表所述商品簇集中一个商品簇,每个所述原型节点具有相应的特征向量和空间的位置向量,所述k表示所述商品簇集中的商品簇个数;步骤2、当所述SOM模型的输入层中输入商品I(t)的特征向量时,获取所述SOM模型的网络参数,所述SOM模型的网络参数,包括:第t次更新被激活的原型节点和其邻域内的其它原型节点时得到的学习率α(t)和高斯参数σ(t),所述t表示所述SOM模型的输入层中输入的商品个数以及表示所述输出层更新的次数;所述α(t)通过如下计算方式得到:α(t)=α0exp(-t/τα),所述α0表示初始学习率,所述τα表示计算所述α(t)时使用的常量参数;所述σ(t)通过如下计算方式得到:所述σ0表示初始的高斯参数,所述τσ表示计算所述σ(t)时使用的常量参数;步骤3、计算所述商品I(t)的特征向量分别与所述输出层中k个原型节点的特征向量之间的距离,从所述k个原型节点中选择与所述商品I(t)之间距离取值最小的原型节点作为当前的激活节点μi(t);步骤4、根据所述输出层中除所述激活节点μi(t)以外的其它原型节点与所述被激活节点μi(t)之间的距离,通过如下计算方式更新所述激活节点μi(t)的邻域内的其它原型节点:μj(t+1)=μj(t)+hji(t)(I(t)-μj(t)),其中,所述μj(t+1)表示所述激活节点μi(t)的邻域内在第t+1次更新时的其它原型节点,所述j表示所述输出层中的第j个原型节点,所述μj(t)表示所述激活节点μi(t)的邻域内在第t次更新时的其它原型节点,所述hji(t)表示所述激活节点μi(t)的邻域函数;所述hji(t)通过如下计算公式得到:hji(t)=α(t)exp(-dist(rj,ri)2/(2σ2(t))),其中,所述α(t)表示第t次更新被激活的原型节点和其邻域内的其它原型节点时得到的学习率,所述σ(t)表示第t...

【专利技术属性】
技术研发人员:张子柯邱念刘闯
申请(专利权)人:杭州师范大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1