一种新型智能推荐资源的系统技术方案

技术编号:16427892 阅读:37 留言:0更新日期:2017-10-21 22:45
本发明专利技术公开了一种新型智能推荐资源的系统,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,网页分解模块连接有工作数据库,工作收集库连接有临时增量数据库,临时增量数据库连接有更新增量数据库,更新增量数据库连接有筛选模块,筛选模块连接有本地文件子系统和交互模块,所述本地文件子系统与工作数据库连接。

A new system of intelligent recommendation resources

The invention discloses a system for intelligent recommendation of resources, including the collection module of cyber source, the cyber source collection module comprises a crawler distribution device and crawler unit, the cyber source collection module is connected with the crawler module and the page decomposition module, web page decomposition module is connected with the database, connected with the collection work temporary incremental database, temporary incremental database connected with incremental updating database, incremental updating database connection selection module, filter module is connected with the local file system and interface module, the local file system and database connection.

【技术实现步骤摘要】
一种新型智能推荐资源的系统
本专利技术涉及一种系统,具体涉及一种新型智能推荐资源的系统。
技术介绍
借助于互联网技术,大数据应用在各个方面持续深化,尤其是在人们的生活领域内,给人们的生活带来了很多的便利。比如说推荐类的新闻客户端,类似于今日头条、网易新闻、凤凰新闻等,有效地聚集了高质量的新闻,针对用户的点击、阅读行为展开新闻推荐。新闻的内容涉及娱乐、体育、军事、科技、财经等,由此可见,它们更加集中于人们的生活领域。然而,面对着各种巨大工作压力,在人们的工作领域,同样,甚至更加需要这样一种资讯推荐来不断提升用户的工作能力,开阔工作视野。目前,还没有发现市场上有这样一款集聚资源、面向工作的推荐应用。当前,人们在工作过程中遇到问题,通常是有两种方式解决:1.搜索引擎的出现,类似百度,可以给人们的工作带来很大的帮助,但是,同时需要人们从大量充斥着各种资源的互联网中去寻找可能有用的信息。大量无效信息(广告)以及重复信息的筛选,将消耗用户大量时间和精力。2.在移动互联时代,人们的生活极度的碎片化,上班路上、休息间隙等等,手机都成了人们严重依赖的工具。如何能够帮助人们利用这些碎片化时间提升自己的个人能力,有些应用(比如微信公众号、专业网站的移动客户端)其实在一定程度上做到了这一点,但是它的问题在于内容过于分散,资源不够集中,同时也不能够满足针对用户个人情况的个性化服务。因此,如果能有一种应用,能够汇聚集中互联网上的各种优质资源,根据用户的个人岗位和用户使用行为,针对用户自身需求进行个性化推荐服务,将极大地提升用户的工作能力和个人素质。
技术实现思路
本专利技术所要解决的技术问题是现有的网络资讯总量繁多且杂乱,在现在快节奏的生活中大量无效的信息及广告极大地降低了人们的效率,不便于人们快速搜索,目的在于提供一种新型智能推荐资源的系统,解决现有的资讯不集中、内容分散,不能针对人们的个人情况快速筛选出优质有效的资源的问题。本专利技术通过下述技术方案实现:一种新型智能推荐资源的系统,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,网页分解模块连接有工作数据库,工作收集库连接有临时增量数据库,临时增量数据库连接有更新增量数据库,更新增量数据库连接有筛选模块,筛选模块连接有本地文件子系统和交互模块,所述本地文件子系统与工作数据库连接;所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;所述网页分解模块用于网页的分解、去除广告信息、去除噪声;所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;所述更新增量数据库用于存储一个时间周期内网站更新的内容;所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;所述交互模块用于分析用户的兴趣爱好,常输入关键字;所述筛选模块用于筛选用户在更新增量数据库中交互模块中得到关键字;所述本地文件子系统用于存储通过筛选模块中的网页数据。所述的一种新型智能推荐资源的系统,本地文件子系统连接一个分布式文件子系统,所述分布式文件子系统,用于同步所述本地文件子系统中的网页数据。所述的一种新型智能推荐资源的系统,爬虫分配装置包括初始单元、网页下载模块、关闭单元,所述初始单元用于为网络资源收集准备必要的存储空间及系统开销;所述网页下载模块用于根据目标网络资源的数据类型选择不同爬虫程序收集目标网络资源的数据;所述关闭单元用于在收集装置收集到所需要的目标数据后释放系统开销以及在收集装置出现异常时进行异常处理。所述的一种新型智能推荐资源的系统,本地文件子系统包括URL过滤器,所述URL过滤器用于对收集的网页数据进行重排。所述的一种新型智能推荐资源的系统,URL过滤器为基于二进制数组bitSet的过滤器。爬虫系统主要完成网络优质资源的获取积累,并对爬下来的数据做处理和初步分析,其工作步骤如下:分别创建工作数据库、更新增量数据库和临时增量数据库,其中工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;更新增量数据库用户存储一个时间周期内(通常是一天)网站更新的内容;临时数据库用于存储接着上次爬取断点爬取到的内容;通过爬虫模块爬取网络上的网页;提取网页的主要内容,重新生成适合客户端阅读的网页;对内容文本部分进行分词,得到内容的URL、标题、标签、来源、时间、词频等属性;判断该内容是否是网站更新的内容;如果该内容是网站最近更新的内容,将计算得到的内容属性存入更新增量数据库;否则,存入临时增量数据库;主系统推荐任务的工作步骤如下:判断用户是否是第一次使用移动客户端,主系统从更新增量数据库中取出若干条数据推送给用户;否则,将根据用户上次感兴趣内容的特征向量,分别从工作数据库和更新增量数据库中按照一定比例推送给用户,其中来源于工作数据库的数据是根据用户感兴趣内容相似度比较的结果;通过移动客户端搜集用户行为,上传至主系统的交互模块,交互模块会对用户结合用户的岗位特征和用户行为(对内容感兴趣),分析下一步推荐的内容,此时,跳转到工作数据库。主系统搜索模块,主要根据用户关键字输入,同时结合用户在使用过程中产生的兴趣关键字,使用Lucene搜索库对爬下来与该岗位相关的所有内容进行全文检索。主系统的关注部分本质上和搜索是相同的,不同之处在于满足用户长期对某一关键字的跟踪。本专利技术与现有技术相比,具有如下的优点和有益效果:1、本专利技术一种新型智能推荐资源的系统,本系统可根据用户的兴趣爱好,筛选网络资讯,过滤掉垃圾信息,根据用户的需求爱好以及工作的性质,推送内容,使得搜索更加快速便捷;2、本专利技术一种新型智能推荐资源的系统,本专利技术结合用户的岗位特征推送资源,更加实用,并且能有效的提高用户的工作能力。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例如图1所示,本专利技术一种新型智能推荐资源的系统,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,网页分解模块连接有工作数据库,工作收集库连接有临时增量数据库,临时增量数据库连接有更新增量数据库,更新增量数据库连接有筛选模块,筛选模块连接有本地文件子系统和交互模块,所述本地文件子系统与工作数据库连接;所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;所述网页分解模块用于网页的分解、去除广告信息、去除噪声;所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;所述更新增量数据库用于存储一个时间周期内网站更新的内容;所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;所本文档来自技高网...
一种新型智能推荐资源的系统

【技术保护点】
一种新型智能推荐资源的系统,其特征在于,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,网页分解模块连接有工作数据库,工作收集库连接有临时增量数据库,临时增量数据库连接有更新增量数据库,更新增量数据库连接有筛选模块,筛选模块连接有本地文件子系统和交互模块,所述本地文件子系统与工作数据库连接;所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;所述网页分解模块用于网页的分解、去除广告信息、去除噪声;所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;所述更新增量数据库用于存储一个时间周期内网站更新的内容;所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;所述交互模块用于分析用户的兴趣爱好,常输入关键字;所述筛选模块用于筛选用户在更新增量数据库中交互模块中得到关键字;所述本地文件子系统用于存储通过筛选模块中的网页数据。

【技术特征摘要】
1.一种新型智能推荐资源的系统,其特征在于,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,网页分解模块连接有工作数据库,工作收集库连接有临时增量数据库,临时增量数据库连接有更新增量数据库,更新增量数据库连接有筛选模块,筛选模块连接有本地文件子系统和交互模块,所述本地文件子系统与工作数据库连接;所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;所述网页分解模块用于网页的分解、去除广告信息、去除噪声;所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;所述更新增量数据库用于存储一个时间周期内网站更新的内容;所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;所述交互模块用于分析用户的兴趣爱好,常输入关键字;所述筛选模块用于筛选用户在更新增量...

【专利技术属性】
技术研发人员:肖雪松
申请(专利权)人:成都明途科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1