基于Hadoop的个性化旅游推荐系统及方法技术方案

技术编号：13672536 阅读：98 留言：0更新日期：2016-09-07 20:51

基于Hadoop的个性化旅游推荐系统及方法，属于互联网技术、大数据领域；本发明专利技术共有五个模块相辅相成来完成整个系统功能，它们分别是网络爬虫模块、数据模块、大数据处理模块、推荐计算模块、UI界面模块。它们的连接关系为，网络爬虫模块与元数据模块单向连接，同时与UI界面模块单向连接；数据模块与大数据处理模块单向连接，同时与UI界面模块双向连接；大数据处理模块与推荐计算模块单向连接，同时与UI界面模块双向连接；推荐计算模块与UI界面模块双向连接。本发明专利技术开发了基于Hadoop的个性化旅游推荐系统，可以精准快速的为游客制定个性化推荐，为游客在选择目的地时带来更舒心适合的选择。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网技术，大数据领域，数据挖掘，针对旅游行业开发的个性化推荐系统。
技术介绍
传统的旅游网站，大多是根据景点的热门程度进行推荐，并没有针对游客个人的兴趣及行为进行个性化推荐，使得游客在大量景点中选择目的地时很盲目，并且很难匹配到个人兴趣点。而其他领域中个性化推荐系统，常用的方法有基于内容推荐和协同过滤推荐，但这两种方法都存在缺陷，基于内容推荐方法总是将内容相似的物品推荐给用户，使得用户对推荐结果产生疲劳，协同过滤推荐方法存在热门物品占比较大的问题，这会降低长尾物品的出现率，使得最终的推荐对用户来说并没有新意。在处理技术上，传统的处理流程在面对大量数据的时候，处理速度慢且效率低，这不符合网站运行快速高效的原则。
技术实现思路
本专利技术针对
技术介绍
中提出的三个问题，开发了基于Hadoop的个性化旅游推荐系统，可以精准快速的为游客制定个性化推荐，为游客在选择目的地时带来更舒心适合的选择。为实现上述目的，本专利技术提供如下的技术方案：本专利技术以Eclipse为开发工具，Hadoop为大数据处理平台，Java为编程语言，通过JSCH跨平台连接本地Windows系统和服务器CentOS系统，即可实现在本地浏览器上向服务器上发送相应操作请求。通过页面的交互信息，后台运用Hadoop中的MapReduce计算框架，在分布式文件系统中进行分步查找和计算，并将结果整合返回前端页面。本专利技术共有五个模块相辅相成来完成整个系统功能，它们分别是网络爬虫模块、数据模块、大数据处理模块、推荐计算模块、UI界面模块。它们的连接关系为，网络爬虫模块与元数据模块单向连接，...

【技术保护点】
基于Hadoop的个性化旅游推荐系统，其特征在于：该系统以Eclipse为开发工具，Hadoop为大数据处理平台，Java为编程语言，通过JSCH跨平台连接本地Windows系统和服务器CentOS系统，即可实现在本地浏览器上向服务器上发送相应操作请求；通过页面的交互信息，后台运用Hadoop中的MapReduce计算框架，在分布式文件系统中进行分步查找和计算，并将结果整合返回前端页面；本系统共有五个模块相辅相成来完成整个系统功能，它们分别是网络爬虫模块、数据模块、大数据处理模块、推荐计算模块、UI界面模块；它们的连接关系为，网络爬虫模块与元数据模块单向连接，同时与UI界面模块单向连接；数据模块与大数据处理模块单向连接，同时与UI界面模块双向连接；大数据处理模块与推荐计算模块单向连接，同时与UI界面模块双向连接；推荐计算模块与UI界面模块双向连接；各模块具体连接过程如下，1.网络爬虫模块主要爬取景点信息和用户信息数据，景点信息的爬取顺序是根据省份和城市信息来依次爬取，首先遍历数据模块中的各省份城市信息数据，后台通过修改旅游网站中URL的城市名称，同时获得该网站的Cookie，依次获取各...

【技术特征摘要】
1.基于Hadoop的个性化旅游推荐系统，其特征在于：该系统以Eclipse为开发工具，Hadoop为大数据处理平台，Java为编程语言，通过JSCH跨平台连接本地Windows系统和服务器CentOS系统，即可实现在本地浏览器上向服务器上发送相应操作请求；通过页面的交互信息，后台运用Hadoop中的MapReduce计算框架，在分布式文件系统中进行分步查找和计算，并将结果整合返回前端页面；本系统共有五个模块相辅相成来完成整个系统功能，它们分别是网络爬虫模块、数据模块、大数据处理模块、推荐计算模块、UI界面模块；它们的连接关系为，网络爬虫模块与元数据模块单向连接，同时与UI界面模块单向连接；数据模块与大数据处理模块单向连接，同时与UI界面模块双向连接；大数据处理模块与推荐计算模块单向连接，同时与UI界面模块双向连接；推荐计算模块与UI界面模块双向连接；各模块具体连接过程如下，1.网络爬虫模块主要爬取景点信息和用户信息数据，景点信息的爬取顺序是根据省份和城市信息来依次爬取，首先遍历数据模块中的各省份城市信息数据，后台通过修改旅游网站中URL的城市名称，同时获得该网站的Cookie，依次获取各省各个城市下的景点名称列表，再根据该景点列表，依次将每个景点所需的相关字段信息提取出来，并记录存储到数据库中对应的景点信息表中；用户的信息数据是根据每个景点的评论页获取对该景点评论的信息，并根据评论信息获取评论者即用户的详细信息，将用户信息和评论信息分别记录存储到数据中对应的用户信息表和评价表中；爬取流程如下：国家列表→省份列表→城市列表→景点列表→景点字段信息→景点评论→评论者信息网络爬虫模块主要通过两个途径来触发爬取程序，一个是每天定时定点向数据库读取景点数据，并触发相应的爬取景点和用户信息程序，并将结果记录存储到数据库中的对应数据表中；另一个是通过UI界面模块的检索功能触发，当所查询的景点名称在数据库中找不到与之相对应的结果时，便会触动爬虫程序去旅游网站查询并爬取相关信息，如果找到对应景点，则将该景点的相关字段信息爬取出来，并记录存储到数据库中对应的景点信息表，同时再将结果反馈到UI页面对应位置。2.数据模块主要用来存储基本数据信息，包括三大类别，分别是景点基本数据、用户基本数据、用户景点关系数据；其中景点基本数据包含省份列表，城市列表，景点列表，各景点基本信息表；用户基本数据包含用户基本信息和用户去过的景点信息；用户景点关系数据包含用户对景点的评价数据；数据模块一方面为大数据处理模块提供基础的数据支撑，另一方面通过UI界面检索功能可从中查询所需信息。3.大数据处理模块是基于Hadoop平台的MapReduce计算框架运行的，该框架主要分为Map和Reduce两个部分，首先由主节点将原始数据拆分后分发到各个执行map任务的工作节点，各工作节点同时开始执行map任务，当map任务结束后，将输出结果作为reduce任务的输入值，传送给执行reduce任务的工作节点，reduce负责将...

【专利技术属性】
技术研发人员：张新峰，郑楠，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人