当前位置: 首页 > 专利查询>天津大学专利>正文

一种推荐系统的线下评价方法技术方案

技术编号:13171664 阅读:99 留言:0更新日期:2016-05-10 14:59
本发明专利技术涉及一种推荐系统的线下评价方法,包括:1)选取测试样本;2)构造近似正样本;3)构造近似负样本;4)计算近似正负样本在推荐结果中的分布并评价推荐算法,在评价推荐算法的时候,用排在潜在用户的前20%的近似正样本数加上排在潜在用户的后20%的近似负样本数目作为评价算法的最终分数,根据这个分数变化,在线下比较某两个推荐算法的好坏,分数较高的推荐算法被认为是较好的算法;或者根据分数调节某推荐算法的参数,使推荐算法达到最优。

【技术实现步骤摘要】

本专利技术涉及一种推荐系统的评价方法。
技术介绍
个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。目前,推荐系统有着非常广泛的应用,除了亚马逊,淘宝等电商网站,如今日头条的新闻推荐,云OS的手机app推荐,以及其他很多应用场景中,都使用到了推荐系统。常用的推荐算法包括:基于内容的推荐,基于协同过滤的推荐,基于关联规则的推荐,基于效用的推荐,基于知识的推荐等。推荐系统的任务一般是这样的:给定一批商品,通过推荐算法的计算,得到每个商品的潜在用户,最后再通过各种推荐手段,将该商品推荐给它的潜在用户。在构建推荐系统的时候,一个难点就是推荐算法的线下评价方法。一般来讲,对于有监督的算法,当构建这个算法的时候,为了验证算法的有效性,往往会用历史数据中的正负样本来先测试算法并且调整参数,最后待参数调整到最优的时候,才会将算法上线,投入到实际应用中。但是,对于推荐算法,正样本是将一件物品推荐给一个用户,这个用户接受了推荐,购买了该商品,而负样本是将意见物品推荐给一个用户后,该用户不接受推荐,没有购买该商品。而在历史数据中,由于并没有真正发生推荐行为,所以也就没有真实的正负样本,给推荐的线下评价带来麻烦,使得算法的设计者们难以调节算法的参数。盲目将没有经过验证的算法发布上线,用于实际应用也存在很大风险。
技术实现思路
本专利技术针对上述问题,提出,利用该方法可以有效的利用历史数据对新建立的推荐算法进行评价,以方便算法的建立者调节算法参数及进行算法上线之前的效果预估。本专利技术的技术方案如下:—种推荐系统的线下评价方法,包括下面步骤:I)选取测试样本对于一个推荐系统,先将历史数据进行划分,将历史数据按照时间的先后分为训练集和测试集。对所有训练集中的商品按照其在一段时期内购买用户的数量进行排名,之后在该排名序列中均匀抽取η个商品,并用待评价的推荐算法计算出这η个商品的潜在用户,作为评价该推荐算法的测试样本。2)构造近似正样本对于选取出的这η个商品的潜在用户,再看看在测试集数据中,到底有没有购买通过推荐算法计算出来的要给他们推荐的商品,即使在测试集中,并没有真正发生推荐行为,但是这些用户可能通过其他方式接触到要给他们推荐的商品,接触到并且购买,说明这个用户对这个商品是非常感兴趣的,那么如果推荐算法给他推荐,他也会购买,把这部分用户当作近似正样本。3)构造近似负样本在构造近似负样本的时候,对于选取出的这η个商品的潜在用户,对其在训练集中的行为数据进行统计,统计出一些非常不活跃的用户,即这些用户购买商品的意愿非常低,对于这类不活跃用户,如果推荐算法给他们推荐新的商品,他们购买的可能性也非常低,因此,很可能产生无效推荐,将这些用户就定义为近似负样本。4)计算近似正负样本在推荐结果中的分布并评价推荐算法对于推荐算法,在计算一个商品的潜在用户的时候,会同时计算出一个用户购买意愿分数,最后会根据这个分数对待推荐的用户进行排名,并依照业务需求,截取排名靠前的用户进行推荐;在评价推荐算法的时候,看近似正样本和近似负样本在用训练集计算出的那批潜在用户中的排名分布,如果大部分的近似正样本在推荐算法算出的潜客中排名靠前,大部分近似负样本在推荐算法算出的潜客中排名靠后,则证明推荐算法有效,相反,如果近似正样本和近似负样本的排名分布比较均匀,则证明算法无效;根据上述原理,在评价推荐算法的时候,用排在潜在用户的前20%的近似正样本数加上排在潜在用户的后20%的近似负样本数目作为评价算法的最终分数,根据这个分数变化,在线下比较某两个推荐算法的好坏,分数较高的推荐算法被认为是较好的算法;或者根据分数调节某推荐算法的参数,使推荐算法达到最优。本专利技术的有益效果如下:1.本专利技术提出一种用历史数据对推荐系统进行线下评价的方法,能够利用历史数据对新构造的推荐系统进行评价,降低了盲目将算法上线的风险。2.推荐系统算法的构造者在构造算法的时候,可以根据本专利技术提出的线下评价方法来调节算法参数,提升准确率。【附图说明】图1本专利技术的技术方案的流程图。【具体实施方式】对于推荐问题来讲,虽然历史数据中没有真正的正负样本,但是本专利技术提出一种方法,能够通过统计用户历史数据,找到近似的正负样本,然后看这些正负样本在算法结果中的分布状况,以完成算法的评价。方案整体示意图如图(I),具体步骤如下:I选取测试样本—个好的推荐系统对于不同的商品,都能够表现出好的推荐结果,因此,在评价推荐系统的时候,需要看其在多种不同商品上的整体效果。在本专利技术中,我们首先将历史数据进行划分,假如我们有某个电商平台4个月的历史数据,则用前三个月的数当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种推荐系统的线下评价方法,包括下面步骤:1)选取测试样本对于一个推荐系统,先将历史数据进行划分,将历史数据按照时间的先后分为训练集和测试集;对所有训练集中的商品按照其在一段时期内购买用户的数量进行排名,之后在该排名序列中均匀抽取n个商品,并用待评价的推荐算法计算出这n个商品的潜在用户,作为评价该推荐算法的测试样本;2)构造近似正样本对于选取出的这n个商品的潜在用户,再看看在测试集数据中,到底有没有购买通过推荐算法计算出来的要给他们推荐的商品,即使在测试集中,并没有真正发生推荐行为,但是这些用户可能通过其他方式接触到要给他们推荐的商品,接触到并且购买,说明这些用户对这个商品是非常感兴趣的,那么如果推荐算法给他们推荐,他们也会购买,把这部分用户当作近似正样本;3)构造近似负样本在构造近似负样本的时候,对于选取出的这n个商品的潜在用户,对其在训练集中的行为数据进行统计,统计出一些非常不活跃的用户,即这些用户购买商品的意愿非常低,对于这类不活跃用户,如果推荐算法给他们推荐新的商品,他们购买的可能性也非常低,因此,很可能产生无效推荐,将这些用户就定义为近似负样本;4)计算近似正负样本在推荐结果中的分布并评价推荐算法对于推荐算法,在计算一个商品的潜在用户的时候,会同时计算出一个用户购买意愿分数,最后会根据这个分数对待推荐的用户进行排名,并依照业务需求,截取排名靠前的用户进行推荐;在评价推荐算法的时候,看近似正样本和近似负样本在用训练集计算出的那批潜在用户中的排名分布,如果大部分的近似正样本在推荐算法算出的潜客中排名靠前,大部分近似负样本在推荐算法算出的潜客中排名靠后,则证明推荐算法有效,相反,如果近似正样本和近似负样本的排名分布比较均匀,则证明算法无效;根据上述原理,在评价推荐算法的时候,用排在潜在用户的前20%的近似正样本数加上排在潜在用户的后20%的近似负样本数目作为评价算法的最终分数,根据这个分数变化,在线下比较某两个推荐算法的好坏,分数较高的推荐算法被认为是较好的算法;或者根据分数调节某推荐算法的参数,使推荐算法达到最优。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王宝亮李丽丽鹿凯宁张文彬常鹏
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1