当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于混合模型的个性化职位信息推荐系统及实现方法技术方案

技术编号:12091414 阅读:118 留言:0更新日期:2015-09-23 09:45
本发明专利技术公开了一种基于混合模型的个性化职位信息推荐系统及实现方法,推荐系统自上而下包括表现层,推荐层,信息抽取层和信息采集层;层与层之间通过共享数据实现衔接;信息采集层负责编写网络爬虫程序;信息抽取层负责从特征页面中解析原始的职位信息,将底层获取的特征链接上传至HDFS文件系统;推荐层负责整个职位推荐系统的推荐引擎算法;表现层向用户提供交互界面,将推荐层计算出的推荐项目,通过网页的形式向求职者展现。本发明专利技术的推荐系统一定程度上降低了系统冷启动和矩阵稀疏性带来的影响,推荐的结果更全面和精确,增强系统的粘性和用户体验。

【技术实现步骤摘要】

本文涉及个性化推荐,数据挖掘领域。
技术介绍
随着大数据的思想落地,推荐系统渐渐受到业界的热捧,它给互联网带来的效益 是无法估量的。不仅仅是电商,各种互联网行业慢慢的都引入了推荐技术,例如:电影网站、 音乐播放器、社交平台、职位招聘、餐饮服务等等。对推荐系统而言,推荐结果的好坏严重影 响用户对服务的评价。但是,目前大多数中小型应用中建立的推荐功能由于算法策略选取 和设计的不合理,使推荐结果不准确。 冷启动和评分稀疏的问题一直是推荐方面不可避免的难题,针对这两个问题,本 文提出一种基于并行式的混合推荐策略,设计了一套完整的职位信息推荐系统。针对系统 采集的职位信息文本利用Lucene分词器和TF-IDF算法挖掘出文本中的具有主题含义的关 键词。新用户注册时系统提供引导页面采集背景知识。对背景知识采用同样的方法挖掘关 键词,选择恰当的相似性计算方法计算匹配新用户背景的职位进行推荐,这是一种典型的 基于内容的推荐方式。另外系统还提出了一种基于聚类的协同过滤算法,通过填补预测评 分优化用户-物品评分矩阵降低矩阵的稀疏度,利用FP-Growth关联挖掘算法发现潜在的 关联规则,向用户推荐可能的职位组合,最后,基于归纳统计设计辅助推荐策略,增强系统 粘性。
技术实现思路
为了解决以往的求职系统中个性化和智能化不足、以及冷启动和评分稀疏的问 题,本文专利技术提出了一种基于混合模型的个性化职位信息推荐系统,采用多种推荐思想策 略和结合职位招聘系统自身的特点设计一套个性化的职位信息推荐系统,采用的技术方案 为: -种基于混合模型的个性化职位信息推荐系统,包括表现层,推荐层,信息抽取层 和信息采集层;所述信息采集层与所述信息抽取层之间、所述信息抽取层与所述推荐层之 间、所述推荐层与所述表现层之间均通过共享数据实现衔接; 所述信息采集层负责从互联网招聘网站中抓取特征链接,编写网络爬虫程序,基 于Nutch进行二次开发,通过修改Nutch中Crawl类代码,采用正则表达式对外链接进行过 滤得到需要的特征链接,并将特征链接保存在本地的CrawlDb文件数据库中; 所述信息抽取层负责从特征页面中解析原始的职位信息,将底层获取的特征链接 上传至HDFS文件系统; 所述推荐层负责整个职位推荐系统的推荐引擎算法,所述算法包括:基于内容的 推荐算法、基于聚类分析的协同过滤算法,基于关联规则的推荐算法、基于归纳统计的辅助 推荐算法; 所述表现层负责向用户提供交互界面,将推荐层计算出的推荐项目,通过网页的 形式向求职者展现。 进一步地, 所述基于混合模型的个性化职位信息推荐系统采用基于JSP+JavaBean+Servlet 的方法构建,静态页面使用HTML展现,动态页面使用JSP展现。 本专利技术还提出了一种基于混合模型的个性化职位信息推荐系统的实现方法,包 括:信息采集层负责编写网络爬虫程序,从互联网的招聘网站中抓取特征链接,然后将特征 链接作为信息抽取层的输入,信息采集层与信息抽取层通过共享爬虫抓取的特征链接数据 进行沟通;信息抽取层采用基于Hadoop的并行抽取技术,从特征链接页面当中解析出职位 信息数据,将职位信息按照指定格式保存在本地数据库;推荐层根据存储在数据库中的用 户评分信息、用户点击行为信息和用户背景知识采用对应的推荐算法向表现层推送职位。 进一步,所述信息采集层的实现步骤包括: 步骤1. 1 :分析主流招聘网站的当中职位详情页面的链接特征,构造相应的正则 表达式; 步骤1. 2 :修改Nutch当中Crawl,java类的代码,重新编译Nutch,部署Nutch ; 步骤1. 3 :执行Nutch脚本文件,进行抓取。 进一步,所述信息抽取层的实现步骤包括: 步骤2. 1 :搭建Hadoop分布式平台,将爬虫模块产生的特征链接文本上传至HDFS 当中; 步骤2. 2 :针对不同的职位详情页面的结构编写对应的MapReduce解析程序,获取 职位详情的文本信息存储在HDFS当中; 步骤2. 3 :编写TF-IDF算法程序获取文本信息中的关键词作为职位信息的职位关 键词。 进一步,所述推荐层中的基于内容的推荐算法的具体实现步骤包括: 步骤3. 1 :新用户根据引导页面定制偏好,包括专业背景、期望工资、期望工资地 点、专业技能、备注信息,系统保存用户背景知识; 步骤3. 2 :利用Lucene分词和TF-IDF算法挖掘背景知识的关键词,按照用户id, 关键词的形式存储; 步骤3. 3 :采用Dice系数度量用户背景知识内容和职位记录的相似度,保存相似 度高的前几项作为新用户推荐项。 进一步,所述推荐层中的基于聚类分析的协同过滤算法的具体实现步骤包括: 步骤4. 1 :将评分数据表与职位记录表连接,构建用户-职位类别矩阵; 步骤4. 2 :利用Mahout提供的K-means聚类算法,将用户划分为k类; 步骤4. 3 :用预测评分填补用户_评分矩阵中的缺省值,降低矩阵稀疏度; 步骤4. 4 :基于修改过后的评分矩阵利用协同过滤算法计算推荐结果。 进一步,所述推荐层中的基于关联规则的推荐算法的实现步骤包括: 步骤5. 1 :系统收集用户每一次点击职位行为数据; 步骤5. 2 :基于步骤5. 1中的数据采用Mahout中的FP-Growth算法计算出职位之 间的关联规则,所述关联规则如下: R1: (2, 5, 9) = > (10, 18) R2: (6, 20) = > (13, 1, 25, 30).... Rn 其中,Rk(k = 1,2, 3-n)代表一条关联规则,括号中数值代表职位Id。 进一步,所述推荐层中的基于归纳统计的辅助推荐算法的实现步骤包括: 步骤6. 1 :将最近一段时间内点击次数最多的N个职位记录到数据库的表格中; 步骤6. 2 :将各个行业最近点击最多的热门职位记录到数据库的表格中; 步骤6. 3 :将用户最近浏览的N个职位记录到数据库的表格中; 步骤6. 4 :采用SQL语句针对步骤6. 1至步骤6. 3中数据库对应表格的记录进行 统计。 和现有技术相比,本专利技术的有益效果为: (1)本文设计的职位推荐系统采用了混合推荐模型,一定程度上降低了系统冷启 动和矩阵稀疏性带来的影响,推荐结果更加全面和精确,可以极大增强系统的粘性和用户 体验。 (2)用户可以定制自己的职位偏好获取推荐信息。 (3)系统能够学习用户行为,发现用户兴趣变化。【附图说明】 图1为本专利技术的系统结构示意图; 图2为本专利技术的基于聚类分析的协同过滤推荐算法流程图; 图3为本专利技术的信息抓取模块的执行流程图; 图4为本专利技术的信息抽取执行流程图。【具体实施方式】 本专利技术提出了一种基于混合模型的个性化职位信息推荐系统,解决了以往的求职 系统中个性化和智能化不足的缺陷,采用多种推荐思想策略组合和结合职位招聘系统自身 的特点设计一套个性化的职位信息推荐系统,系统将用户分为两类,分别为新用户和老用 户,当新用户注册系统时,新用户可以向系统定制自己的求职意向(职位意向,工作地点意 向,薪水意向,行业意向等等)基于这些偏好信息,系统后台立即能够从职位数据表当中通 过计算相似度向用户推荐一些匹配度较高的项目,然后对于老用户登录本文档来自技高网...

【技术保护点】
一种基于混合模型的个性化职位信息推荐系统,其特征在于,包括表现层,推荐层,信息抽取层和信息采集层;所述信息采集层与所述信息抽取层之间、所述信息抽取层与所述推荐层之间、所述推荐层与所述表现层之间均通过共享数据实现衔接;所述信息采集层负责从互联网招聘网站中抓取特征链接,编写网络爬虫程序,基于Nutch进行二次开发,通过修改Nutch中Crawl类代码,采用正则表达式对外链接进行过滤得到需要的特征链接,并将特征链接保存在本地的CrawlDb文件数据库中;所述信息抽取层负责从特征页面中解析原始的职位信息,将底层获取的特征链接上传至HDFS文件系统;所述推荐层负责整个职位推荐系统的推荐引擎算法,所述算法包括:基于内容的推荐算法、基于聚类分析的协同过滤算法,基于关联规则的推荐算法、基于归纳统计的辅助推荐算法;所述表现层负责向用户提供交互界面,将推荐层计算出的推荐项目,通过网页的形式向求职者展现。

【技术特征摘要】

【专利技术属性】
技术研发人员:薛安荣黄祖卫
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1