当前位置: 首页 > 专利查询>重庆大学专利>正文

基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法技术

技术编号:14116709 阅读:117 留言:0更新日期:2016-12-07 23:01
本发明专利技术提出了一种基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,主要通过结合内存计算框架解决音乐推荐过程中不同时间跨度情况下的兴趣迁移和融合的问题。本发明专利技术首先通过改进的隐马尔科夫模型构建长短周期情况下的兴趣迁移模型,再将兴趣迁移模型中产生的长短周期用户兴趣注入长短周期图模型LSTG将兴趣迁移模型中,然后根据用户偏好在图模型中的游走路径获取相关音乐的评分,最后根据上述模型获取的用户对音乐的评分,按照高低顺序生成音乐的推荐结果集合。该方法充分考虑了不同类型周期对于用户兴趣的影响,同时结合新型的兴趣迁移模型和兴趣融合模型,实现了对用户的更加精确的个性化音乐推荐。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法
技术介绍
近年来,随着互联网信息的爆发式增长,人工智能和大数据处理成为计算机领域一股新的风潮,而对于不同领域的信息的精确性挖掘显得更加迫切。个性化推荐技术应运而生,不同于搜索引擎,推荐系统需要更少的精确描述来寻找用户感兴趣信息。传统的推荐算法主要有基于协同过滤的推荐方法、基于内容的推荐方法和混合类型的推荐算法。这些方法都存在各自的局限性。其中,基于协同过滤的推荐方法通过计算用户或者商品之间相似度,寻找目标用户或商品的最近邻,最后根据最近邻的评分结果进行预测推荐。基于内容的推荐方法获取更多的有效信息比较用户商品主题匹配程度形成推荐列表。虽然这些传统的推荐方法使用广泛,但是它们没有将用户的兴趣迁移的情况考虑进去。用户的兴趣不会一成不变,随着时间的递进,用户的兴趣会存在不同程度的变化。传统的静态推系统难以处理变化频繁的数据,只有充分考虑时间变化对个性化推荐的影响,推荐系统才能得到更加准确的结果。Apache Spark是个开源和兼容Hadoop的集群计算平台,由加州大学伯克利分校的AMPLabs开发。Spark使用内存缓存来提升性能,因此进行交互式分析足够快速。缓存同时提升了迭代算法的性能,这使得Spark非常适合数据理论任务,特别是机器学习。因此,通过结合Spark的内存计算框架缩短算法的计算时间的方法适用于大数据环境下的推荐算法模型的训练。虽然推荐系统中考虑了时间因素的影响,但是不同时间跨度上的数据反映的用户兴趣存在差异,它们之间具有较大的倾向区分度,因此现在的推荐系统亟需一种兼顾长短周期兴趣的个性化推荐方法。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法。为了实现本专利技术解决传统的推荐算法中忽略用户兴趣迁移的问题,考虑不同时间跨度下的用户兴趣的不同影响,提高推荐算法在高频度更新数据中的准确率和召回率的目的,本专利技术提供了一种基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,包括:S1:搭建Apache Spark框架,实现算法整体的分布式运行;利用Spark MLlib模块实现算法,加快算法运行速度;S2:获取数据中所有用户对不同音乐的收听次数,对获取的数据进行预处理,利用收听记录计算所有用户的音乐评分;S3:将时序数据整理成周期数据集合;S4:构建长短周期兴趣迁移模型;S5:构建长短周期图模型;S6:结合S3生成的长短周期兴趣和S4中的长短周期图模型进行音乐推荐。所述的基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,优选的,步骤S2中所述的数据进行预处理的步骤:S2-1、S1中利用Spark搭建形成包含master和若干slave的集群;然后本专利技术将数据导入master主机中,由master进行分割,将数据的预处理任务分派给slave机器,同时追踪slave机器上的分布式计算,收集slave机器的反馈信息进行汇总统计;S2-2、将整个数据分割为用户个人记录信息,对个人数据中用户收听记录进行统计,将收听记录过少的用户删除,留存包含足够信息的用户;S2-3、同时,统计每位音乐被收听记录,如果音乐被收听次数过少,不能充分反映用户的兴趣,将相关记录删除;S2-4、依据S2-1和S2-2步骤的清理结果,以当前时间为准,统计该时间之前的数据,获取用户对于音乐的收听记录;S2-5、用户对于音乐的评价受到访问次数和访问最近时间的影响,所有用户的音乐的评分需要综合考虑这些因素,用户自身对于不同用户的收听次数存在上限和下限,根据用户收听习惯,设置分段函数赋予频次评分;构造一个线性函数对于用户的频次评分和收听时间距离进行加权平均化,获得最终的所有用户的音乐评分;S2-6、利用S2-4获取的所有用户的音乐评分矩阵,将用户对不同音乐的评价作为音乐特征进行聚类,生成相似音乐簇集,分别为各簇集赋予新的标签作为音乐类别标记。所述的基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,优选的,步骤S3中所述的时序数据整理成周期数据集合的步骤包括:S3-1、获取S2中清洗完毕后的数据,获取当前时间之前的用户历史收听记录;S3-2、根据不同周期类型,设置周期窗口;S3-3、沿着时间反向回溯行进,短周期窗口范围内的收听记录作为一个短周期数据块,然后行进一个短周期窗口长度时间能获取一个新的短周期数据块,依次类推;同理,获取长周期数据块,实际运行中由于长周期窗口长度是短周期窗口长度的整数倍。所述的基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,优选的,步骤S4中所述的构建长短周期兴趣迁移模型的步骤包括:S4-1、根据S3步骤中获取的周期数据集合,提取用户周期数据中的观察量和隐藏量;观察量为用户在周期数据中最喜爱的音乐,隐藏量为用户在该周期范围内喜爱音乐的所属类别;S4-2、周期数据集中的用户的喜爱音乐组成观察量序列O={o1,o2,...,oT本文档来自技高网
...
基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法

【技术保护点】
一种基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,其特征在于,包括:S1:搭建Apache Spark框架,实现算法整体的分布式运行;利用Spark MLlib模块实现算法,加快算法运行速度;S2:获取数据中所有用户对不同音乐的收听次数,对获取的数据进行预处理,利用收听记录计算所有用户的音乐评分;S3:将时序数据整理成周期数据集合;S4:构建长短周期兴趣迁移模型;S5:构建长短周期图模型;S6:结合S3生成的长短周期兴趣和S4中的长短周期图模型进行音乐推荐。

【技术特征摘要】
1.一种基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,其特征在于,包括:S1:搭建Apache Spark框架,实现算法整体的分布式运行;利用Spark MLlib模块实现算法,加快算法运行速度;S2:获取数据中所有用户对不同音乐的收听次数,对获取的数据进行预处理,利用收听记录计算所有用户的音乐评分;S3:将时序数据整理成周期数据集合;S4:构建长短周期兴趣迁移模型;S5:构建长短周期图模型;S6:结合S3生成的长短周期兴趣和S4中的长短周期图模型进行音乐推荐。2.根据权利要求1所述的基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法,其特征在于,步骤S2中所述的数据进行预处理的步骤:S2-1、S1中利用Spark搭建形成包含master和若干slave的集群;然后本发明将数据导入master主机中,由master进行分割,将数据的预处理任务分派给slave机器,同时追踪slave机器上的分布式计算,收集slave机器的反馈信息进行汇总统计;S2-2、将整个数据分割为用户个人记录信息,对个人数据中用户收听记录进行统计,将收听记录过少的用户删除,留存包含足够信息的用户;S2-3、同时,统计每位音乐被收听记录,如果音乐被收听次数过少,不能充分反映用户的兴趣,将相关记录删除;S2-4、依据S2-1和S2-2步骤的清理结果,以当前时间为准,统计该时间之前的数据,获取用户对于音乐的收听记录;S2-5、用户对于音乐的评价受到访问次数和访问最近时间...

【专利技术属性】
技术研发人员:冯永张备
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1