基于自适应分布式计算的在线推荐方法、系统和移动终端技术方案

技术编号:9596773 阅读:103 留言:0更新日期:2014-01-23 02:16
本发明专利技术公开了一种基于自适应分布式计算的在线推荐方法、系统和移动终端,其中,自适应性分布式计算主要是通过每一处理装置自适应性地将大数据抽样后训练矩阵分解模型来实现的,然后自发性地进行增量式的模型在线更新,最后对各个模型进行加权集成推荐。这种推荐系统不需要通过任何分布式计算模型去建立集群。而且能够在单台或者多台普通计算机上有效处理的处理海量数据,不仅稳定性好,可扩展性高,而且还可以大大节约成本和开发效率。

【技术实现步骤摘要】
基于自适应分布式计算的在线推荐方法、系统和移动终端
本专利技术涉及智能推荐
,尤其涉及一种基于自适应分布式计算的在线推荐方法、系统和移动终端。
技术介绍
如何从海量大数据中找到用户感兴趣的信息,如何让信息受到广大用户的欢迎,是一件非常困难的事情。推荐系统的任务就是联系用户和信息,帮助用户发现对自己有价值的信息,让信息能够展现在对它有兴趣的用户面前,从而实现信息消费者和信息提供者的双赢。推荐系统主要是通过分析用户的行为,对其建模,通过模型来预测用户的兴趣从而做出推荐。主要的方法可分为内容过滤,协同过滤,和基于矩阵分解的模型。内容过滤是在基于物品内容的基础上给用户推荐和他们之前喜欢的物品在内容上相似的其他物品。协同过滤通过分析用户的行为数据来找到相似的用户和相似的物品做出推荐。基于矩阵分解的模型是通过发现隐含的特征(比如类别)来联系用户兴趣和物品。这种模型在用户的行为数据上通过矩阵分解的方法来确定物品在这个类别中的权重,然后计算出用户对物品的感兴趣程度,从而对用户进行推荐。内容过滤和协同过滤的算法大部分都是在物品的内容或用户行为数据上的一些统计方法,而基于矩阵分解的模型是一种机器学习的方法,能更好的学习出用户和物品之间的关系,因此这种模型已经被广泛地应用到了目前主流的推荐系统中。虽然基于矩阵分解的模型效果好,但通常是作为一种离线的计算模型。因为它要求在内存里面加载整个数据,而且时间计算复杂度也很高。在普通机器上很难利用矩阵分解模型对海量的大数据部署推荐系统。目前也有提出利用分布式计算模型比如MPI(MessagePassingInterface)或者MapReduce在大型的集群系统中快速地进行分布式矩阵分解运算,同时通过增量式模型实现在线更新和推荐。然而这种方法需要搭建高性能计算机,同时部署集群系统和分布式计算的框架复杂度高,且不利于系统的维护和扩展。有鉴于此,如何针对大数据设计一种快速、稳定、可靠、有效的基于矩阵分解的在线模型对当前智能推荐系统起着至关重要的作用。
技术实现思路
鉴于现有技术中的不足,本专利技术目的在于提供一种基于自适应分布式计算的在线推荐方法和系统。旨在解决现有技术中智能推荐系统利用矩阵分解模型处理海量大数据时面临的计算复杂度高、维护扩展困难等问题。本专利技术的技术方案如下:一种基于自适应分布式计算的在线推荐方法,用于通过处理装置对海量数据信息处理后向用户进行推荐,其中,所述在线推荐方法包括以下步骤:A、根据处理装置的处理能力,采用基于范数的矩阵抽样算法从海量数据信息中抽样后进行分配,令每一处理装置能够独自处理分配的数据信息;B、利用基于偏置量的矩阵分解模型对所分配的数据信息进行训练,得到一评分预测模型;C、通过增量式在线更新方法更新所述评分预测模型;D、通过加权集成更新后的评分预测模型获取对用户的最终推荐列表;所述步骤A中,采用基于范数的矩阵抽样算法具体包括以下步骤:A1、获取海量数据信息对应的数据矩阵;A2、对所述数据矩阵的行和列进行采样,得到一子矩阵;并根据向量的第一或第二范数来确保采样后的子矩阵包含的数据和海量数据之间的近似度小于预定的误差阈值。所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤A2中具体包括以下步骤:A21、对数据矩阵的行和列进行采样,行和列的采样数目分别为p和q,输出一包含p行q列的子矩阵;A22、根据第二范数计算行和列在数据矩阵范数中的比例,生成每一行和列的范数比例;A23、对上述范数比例进行归一化处理后,得到样本取样的概率,并生成相应的概率区间;A24、随机生成一大于0小于1的数,判断其是否在上述概率区间内,如是则抽取与其对应的样本。所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤C中增量式在线更新方法包括对已知用户进行预测和对新用户/物品进行预测。所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤D中所述加权集成中的权重是根据每一处理装置的处理能力来进行分配。所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤D中加权集成中的权重是根据每一处理装置的处理能力来进行分配具体包括:D1、每一处理装置的抽样的行列个数分别为cj和rj;D2、则设置权重所述的基于自适应分布式计算的在线推荐方法,其中,所述处理装置为计算机,所述处理装置的处理能力包括计算机的内存和运算能力。一种基于自适应分布式计算的在线推荐系统,用于通过处理装置对海量数据信息处理后向用户进行推荐,其中,所述在线推荐系统包括:自适应负载均衡单元,用于根据处理装置的处理能力,采用基于范数的矩阵抽样算法从海量数据信息中抽样后进行分配,令每一处理装置能够独自处理分配的数据信息;分布式矩阵分解单元,用于利用基于偏置量的矩阵分解模型对所分配的数据信息进行训练,得到一评分预测模型;增量式在线更新单元,用于通过增量式在线更新方法更新所述评分预测模型;在线集成推荐单元,用于通过加权集成更新后的评分预测模型获取对用户的最终推荐列表;所述采用基于范数的矩阵抽样算法具体包括:获取海量数据信息对应的数据矩阵;对所述数据矩阵的行和列进行采样,得到一子矩阵;并根据向量的第一或第二范数来确保采样后的子矩阵包含的数据和海量数据之间的近似度小于预定的误差阈值。所述的基于自适应分布式计算的在线推荐系统,其中,所述处理装置为计算机,所述处理装置的处理能力包括计算机的内存和运算能力。所述的基于自适应分布式计算的在线推荐系统,其中,所述增量式在线更新单元中增量式在线更新方法包括对已知用户进行预测和对新用户/物品进行预测。所述的基于自适应分布式计算的在线推荐系统,其中,所述在线集成推荐单元中所述加权集成中的权重是根据每一处理装置的处理能力来进行分配。一种移动终端,其中,包括上述的基于自适应分布式计算的在线推荐系统。有益效果:本专利技术的基于自适应分布式计算的在线推荐方法、系统和移动终端,其中,所述推荐系统不需要通过任何分布式计算模型去建立集群。而且能够在单台或者多台普通处理装置上有效处理的处理海量数据,不仅稳定性好,可扩展性高,而且还可以大大节约成本和开发效率。附图说明图1为本专利技术的基于自适应分布式计算的在线推荐方法的流程图。图2为本专利技术的基于自适应分布式计算的在线推荐系统的结构框图。图3为现有技术的基于矩阵分解的推荐系统的框架示意图。图4为本专利技术的基于自适应分布式计算的在线推荐系统的框架示意图。具体实施方式本专利技术提供一种基于自适应分布式计算的在线推荐方法、系统和移动终端,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,其为本专利技术的基于自适应分布式计算的在线推荐方法的流程图。所述基于自适应分布式计算的在线推荐方法,用于通过处理装置对海量数据信息处理后向用户进行推荐,如图1所示,所述在线推荐方法包括以下步骤:S1、根据处理装置的处理能力,采用基于范数的矩阵抽样算法从海量数据信息中抽样后进行分配,令每一处理装置能够独自处理分配的数据信息;S2、利用基于偏置量的矩阵分解模型对所分配的数据信息进行训练,得到一评分预测模型;S3、通过增量式在线更新方法更新所述评分预测模型;S4、通过加权集成更新后的评分预测模型获取对本文档来自技高网
...
基于自适应分布式计算的在线推荐方法、系统和移动终端

【技术保护点】
一种基于自适应分布式计算的在线推荐方法,用于通过处理装置对海量数据信息处理后向用户进行推荐,其特征在于,所述在线推荐方法包括以下步骤:A、根据处理装置的处理能力,采用基于范数的矩阵抽样算法从海量数据信息中抽样后进行分配,令每一处理装置能够独自处理分配的数据信息;B、利用基于偏置量的矩阵分解模型对所分配的数据信息进行训练,得到一评分预测模型;C、通过增量式在线更新方法更新所述评分预测模型;D、通过加权集成更新后的评分预测模型获取对用户的最终推荐列表。

【技术特征摘要】
1.一种基于自适应分布式计算的在线推荐方法,用于通过处理装置对海量数据信息处理后向用户进行推荐,其特征在于,所述在线推荐方法包括以下步骤:A、根据处理装置的处理能力,采用基于范数的矩阵抽样算法从海量数据信息中抽样后进行分配,令每一处理装置能够独自处理分配的数据信息;B、利用基于偏置量的矩阵分解模型对所分配的数据信息进行训练,得到一评分预测模型;C、通过增量式在线更新方法更新所述评分预测模型;D、通过加权集成更新后的评分预测模型获取对用户的最终推荐列表;所述步骤A中,采用基于范数的矩阵抽样算法具体包括以下步骤:A1、获取海量数据信息对应的数据矩阵;A2、对所述数据矩阵的行和列进行采样,得到一子矩阵;并根据向量的第一或第二范数来确保采样后的子矩阵包含的数据和海量数据之间的近似度小于预定的误差阈值。2.根据权利要求1所述的基于自适应分布式计算的在线推荐方法,其特征在于,所述步骤A2中具体包括以下步骤:A21、对数据矩阵的行和列进行采样,行和列的采样数目分别为p和q,输出一包含p行q列的子矩阵;A22、根据第二范数计算行和列在数据矩阵范数中的比例,生成每一行和列的范数比例;A23、对上述范数比例进行归一化处理后,得到样本取样的概率,并生成相应的概率区间;A24、随机生成一大于0小于1的数,判断其是否在上述概率区间内,如是则抽取与其对应的样本。3.根据权利要求1所述的基于自适应分布式计算的在线推荐方法,其特征在于,所述步骤C中增量式在线更新方法包括对已知用户进行预测和对新用户和/或物品进行预测。4.根据权利要求1所述的基于自适应分布式计算的在线推荐方法,其特征在于,所述步骤D中所述加权集...

【专利技术属性】
技术研发人员:李朝汪灏泓
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1