一种新闻实时推荐系统及其方法技术方案

技术编号:15228285 阅读:73 留言:0更新日期:2017-04-27 12:48
本发明专利技术涉及大数据技术领域,尤其是一种新闻实时推荐系统及其方法。本发明专利技术包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台,采集层采集主要中文新闻网站新闻内容,包括新闻链接、新闻标题、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题,数据处理层是一个能够实时计算的流处理架构。本发明专利技术把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力;采用Spark做在线处理,实现了推荐系统的实时性。

【技术实现步骤摘要】

本专利技术涉及大数据
,尤其是一种新闻实时推荐系统及其方法。
技术介绍
随着互联网信息技术的发展,用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心,只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性,已不能满足用户的个性查询。因此人民希望新闻能够更加智能化,根据自己的喜好推荐自己需要的信息。
技术实现思路
本专利技术解决的技术问题在于提供一种新闻实时推荐系统及其方法;对互联网新闻门户进行数据采集,对所有新闻数据进行分析与主题抽取,有效解决系统初始化无历史数据时的冷启动问题。本专利技术解决上述技术问题的技术方案是:所述的系统包括数据采集层、数据处理层、实时推荐层;所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:第一步,获取待采集的URL;第二步,通过数据路由器对URL进行过滤;第三步,抓取页面数据;第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;第五步,自动文本特征提取,生成网页指纹;第六步,检测是否为有相同文章;第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第八步,用TF_IDF算法提取N个关键词;第九步,找到与其重合度最高的m篇文章;第十步,若其重合度大于c则归为相应主题数据库;第十一步,建立倒排索引以供其他模块使用;所述的数据处理层按照如下步骤处理数据:第一步,对用户-新闻数据进行采集,进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集;第二步,实时流计算,源源不断的数据流经过系统时,连续地计算;系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中;所述的推荐层按照如下步骤运行:第一步,分别加载新闻数据集与用户点击数据集;第二步,对数据集进行分解;第三部,设置模型参数;第四步,训练推荐模型;第五步,通过推荐模型对新闻进行预测评分;第六步,计算RSME;第七步,选择RSME最小值,得出最优推荐模型;第八步,使用最优模型对用户推荐新闻,并保存在数据库中。所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤:第一步,采用正则表达式去除文本中html标签;第二步,采用最大路径算法对标签后的文本进行分词;第三步,分词后进行实体抽取;第四步,对抽取的关键词进行排名;第五步,形成关键词向量,对文档d其内容形成的关键词向量如下:di={(e1,w1),(e2,w2),...本文档来自技高网...

【技术保护点】
一种新闻实时推荐系统,其特征在于:所述的系统包括数据采集层、数据处理层、实时推荐层;所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。

【技术特征摘要】
1.一种新闻实时推荐系统,其特征在于:所述的系统包括数据采集层、数据处理层、实时推荐层;所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。2.一种权利要求1所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:第一步,获取待采集的URL;第二步,通过数据路由器对URL进行过滤;第三步,抓取页面数据;第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;第五步,自动文本特征提取,生成网页指纹;第六步,检测是否为有相同文章;第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第八步,用TF_IDF算法提取N个关键词;第九步,找到与其重合度最高的m篇文章;第十步,若...

【专利技术属性】
技术研发人员:侯朋李勇波孙傲冰季统凯张恒
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1