【技术实现步骤摘要】
本专利技术涉及大数据
,尤其是一种新闻实时推荐系统及其方法。
技术介绍
随着互联网信息技术的发展,用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心,只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性,已不能满足用户的个性查询。因此人民希望新闻能够更加智能化,根据自己的喜好推荐自己需要的信息。
技术实现思路
本专利技术解决的技术问题在于提供一种新闻实时推荐系统及其方法;对互联网新闻门户进行数据采集,对所有新闻数据进行分析与主题抽取,有效解决系统初始化无历史数据时的冷启动问题。本专利技术解决上述技术问题的技术方案是:所述的系统包括数据采集层、数据处理层、实时推荐层;所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:第一步,获取待采集的URL;第二步,通过数据路由器对URL进行过滤;第三步,抓取页面数据;第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;第五步,自动文本特征提 ...
【技术保护点】
一种新闻实时推荐系统,其特征在于:所述的系统包括数据采集层、数据处理层、实时推荐层;所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。
【技术特征摘要】
1.一种新闻实时推荐系统,其特征在于:所述的系统包括数据采集层、数据处理层、实时推荐层;所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。2.一种权利要求1所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:第一步,获取待采集的URL;第二步,通过数据路由器对URL进行过滤;第三步,抓取页面数据;第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;第五步,自动文本特征提取,生成网页指纹;第六步,检测是否为有相同文章;第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第八步,用TF_IDF算法提取N个关键词;第九步,找到与其重合度最高的m篇文章;第十步,若...
【专利技术属性】
技术研发人员:侯朋,李勇波,孙傲冰,季统凯,张恒,
申请(专利权)人:国云科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。