基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法技术

技术编号:24938314 阅读:41 留言:0更新日期:2020-07-17 21:00
本发明专利技术涉及一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,包括通过开源框架进行资源爬虫,获取所需的目标业务资源;根据NPL分词技术对获取的目标业务资源进行分词,实现资讯分词匹配;根据预设关键字、领域和权重值,进行资讯筛选并推荐。采用了本发明专利技术的基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,提高目标用户的网络资源获取能力及智能推荐算法功能,通过开源HttpClient技术与python算法包相结合实现网络爬虫技术,大大降低甚至直接省去部分人工投入及时间成本,且爬虫资源管理有较高的灵活性及可扩展性;为目标用户执行智能推荐算法调度,实现按需过滤并筛选出有效资讯。

【技术实现步骤摘要】
基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法
本专利技术涉及大数据平台领域,尤其涉及资源获取领域,具体是指一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法。
技术介绍
随着网络大数据时代来临以及各企业公司业务数据的快速发展,各单位为应对不断增加的庞大数据,出于对大数据的研究分析,需不断投入大量人力物力及时间成本,具体体现如下几点:1)为获取数据资源而不断投入大量人力资源及时间成本;2)针对已获取的数据因其数量不断增长庞大化,从中提取研究分析出有效资源需投入过多人力成本;3)受资源、资讯、数据的多变性,根据用户需要,对目标数据源的获取需跟随时代焦点或热门话题,包含但不仅限于某固定类型资源,可人工介入改变资源获取方向;4)针对现有已采集资讯,需筛选并为用户智能推荐相关有效资讯,过滤无关内容以提升资源质量;目前业内主流方案有:PHP:优点:成本低、拓展及可植入性强缺点:对多线程,异步支持不好并发处理不够Java:优点:网络爬虫生态圈完善缺点:Java语言本身笨重、代码本文档来自技高网...

【技术保护点】
1.一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的方法包括以下步骤:/n(1)通过开源框架进行资源爬虫,获取所需的目标业务资源;/n(2)根据NPL分词技术对获取的目标业务资源进行分词,实现资讯分词匹配;/n(3)根据预设关键字、领域和权重值,进行资讯筛选并推荐。/n

【技术特征摘要】
1.一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的方法包括以下步骤:
(1)通过开源框架进行资源爬虫,获取所需的目标业务资源;
(2)根据NPL分词技术对获取的目标业务资源进行分词,实现资讯分词匹配;
(3)根据预设关键字、领域和权重值,进行资讯筛选并推荐。


2.根据权利要求1所述的基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的步骤(1)具体为:
根据开源框架和分布式部署分离需要爬取的目标业务资源,部署各应用实例,通过后台定时任务功能进行调度衔接。


3.根据权利要求1所述的基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,其特征在于,所述的步骤(2)具体为:
根据NLP分词技术封装...

【专利技术属性】
技术研发人员:王璐朱广文张建民魏晓泉
申请(专利权)人:上海浩方信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1