【技术实现步骤摘要】
基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法
本专利技术涉及大数据平台领域,尤其涉及资源获取领域,具体是指一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法。
技术介绍
随着网络大数据时代来临以及各企业公司业务数据的快速发展,各单位为应对不断增加的庞大数据,出于对大数据的研究分析,需不断投入大量人力物力及时间成本,具体体现如下几点:1)为获取数据资源而不断投入大量人力资源及时间成本;2)针对已获取的数据因其数量不断增长庞大化,从中提取研究分析出有效资源需投入过多人力成本;3)受资源、资讯、数据的多变性,根据用户需要,对目标数据源的获取需跟随时代焦点或热门话题,包含但不仅限于某固定类型资源,可人工介入改变资源获取方向;4)针对现有已采集资讯,需筛选并为用户智能推荐相关有效资讯,过滤无关内容以提升资源质量;目前业内主流方案有:PHP:优点:成本低、拓展及可植入性强缺点:对多线程,异步支持不好并发处理不够Java:优点:网络爬虫生态圈完善缺点:Jav ...
【技术保护点】
1.一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的方法包括以下步骤:/n(1)通过开源框架进行资源爬虫,获取所需的目标业务资源;/n(2)根据NPL分词技术对获取的目标业务资源进行分词,实现资讯分词匹配;/n(3)根据预设关键字、领域和权重值,进行资讯筛选并推荐。/n
【技术特征摘要】
1.一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的方法包括以下步骤:
(1)通过开源框架进行资源爬虫,获取所需的目标业务资源;
(2)根据NPL分词技术对获取的目标业务资源进行分词,实现资讯分词匹配;
(3)根据预设关键字、领域和权重值,进行资讯筛选并推荐。
2.根据权利要求1所述的基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的步骤(1)具体为:
根据开源框架和分布式部署分离需要爬取的目标业务资源,部署各应用实例,通过后台定时任务功能进行调度衔接。
3.根据权利要求1所述的基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的步骤(2)具体为:
根据NLP分词技术封装...
【专利技术属性】
技术研发人员:王璐,朱广文,张建民,魏晓泉,
申请(专利权)人:上海浩方信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。