一种利用关键字联想方式抓取信息的方法技术

技术编号:20546034 阅读:25 留言:0更新日期:2019-03-09 18:57
本发明专利技术公开了一种利用关键字联想方式抓取信息的方法,包括:获取用户定制化需求配置的关键字;根据所述关键字搜索需求数据相关网址及网页;基于优先顺序和抓取频率有序地对数据进行数据处理;本发明专利技术方法通过配置关键字搜索获取所有相关网址url列表,然后有序的逐个的抓取各个url网站上相关匹配到的数据信息过滤后保存到数据库,然后再把相关抓取到的数据展示在前台网站和定时打包把相关数据推送给客户,从而节省大量时间,提高效率。

A Method of Grabbing Information by Keyword Association

The invention discloses a method of capturing information by keyword association, which includes: acquiring keywords of customized user requirement configuration; searching relevant web sites and webpages according to the keywords; orderly data processing based on priority and capture frequency; and acquiring URL lists of all relevant web sites by configuring keyword search. After that, the relevant matched data information on each URL website is filtered one by one and saved to the database. Then the relevant captured data is displayed on the front-end website and packaged regularly to push the relevant data to the customers, which saves a lot of time and improves efficiency.

【技术实现步骤摘要】
一种利用关键字联想方式抓取信息的方法
本专利技术涉及大数据分析领域,尤其涉及一种利用关键字联想方式抓取信息的方法。
技术介绍
随着网络的发展,大数据分析被广泛应用在各行各业,尤其是对网络数据的抓取的应用尤为广泛。但现有技术中的数据抓取普遍的是基于特定网址或者网页,这种方式需要事先知道相关网页地址,而不能主动地对所有网页网址进行相应的数据检索,这样对相关需求数据的采集会很有限,而且人工成本和时间成本会更高,并且还不一定能满足客户更全面的数据要求。
技术实现思路
本专利技术提供了一种利用关键字联想方式抓取信息的方法,以解决只能按照特定网址或者网页进行数据抓取的技术问题,从而主动地对所有网页网址进行相应的数据检索,进而实现主动地把相关抓取到的数据展示在前台网站和定时打包把相关数据推送给客户,节省大量时间,提高效率。为了解决上述技术问题,本专利技术实施例提供了一种利用关键字联想方式抓取信息的方法,包括:获取用户定制化需求配置的关键字;根据所述关键字搜索需求数据相关网址及网页;基于优先顺序和抓取频率有序地对数据进行数据处理。作为优选方案,所述数据处理包括数据采集、数据分析和数据存储。作为优选方案,所述获取用户定制化需求配置的关键字,还包括:将所述关键字存储到数据库服务器上。作为优选方案,所述根据所述关键字搜索需求数据相关网址及网页,包括:从数据库中读取用户配置的关键字;有序地通过搜索引擎来搜索关键字来获取网址及网页列表。作为优选方案,所述基于优先顺序和抓取频率有序地对数据进行数据处理,包括:通过算法技术,请求站点的行为,把网络站点返回的网络数据爬到本地,进而提取需要的数据;将所述提取的数据存放保存到数据库服务器上,以便通过接口方式提供给前台数据展示使用。作为优选方案,所述算法技术为Python网络爬虫技术。作为优选方案,所述网络数据包括HTML代码或/和JSON数据或/和二进制数据。作为优选方案,所述获取关键字的数量可以为一个或多个。作为优选方案,所述抓取信息的方法,还包括:将进行处理后的数据展示在前台网站和整合相关数据推送给用户。作为优选方案,所述推送相关数据可以选择定时推送。相比于现有技术,本专利技术实施例具有如下有益效果:通过配置关键字搜索获取所有相关网址url列表,然后有序的逐个的抓取各个url网站上相关匹配到的数据信息过滤后保存到数据库,然后再把相关抓取到的数据展示在前台网站和定时打包把相关数据推送给客户,从而节省大量时间,提高效率。附图说明图1:为本专利技术方法实施例中的步骤流程示意图;图2:为本专利技术方法实施例中的抓取关键字的效果示意图;图3:为本专利技术方法实施例中的抓取数据系统前台展示示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参照图1,本专利技术优选实施例提供了一种利用关键字联想方式抓取信息的方法,包括:S1,获取用户定制化需求配置的关键字;S2,根据所述关键字搜索需求数据相关网址及网页;S3,基于优先顺序和抓取频率有序地对数据进行数据处理。在本实施例中,所述数据处理包括数据采集、数据分析和数据存储。在本实施例中,所述步骤S1获取用户定制化需求配置的关键字,还包括:将所述关键字存储到数据库服务器上。在本实施例中,所述步骤S2根据所述关键字搜索需求数据相关网址及网页,包括:S21,从数据库中读取用户配置的关键字;S22,有序地通过搜索引擎来搜索关键字来获取网址及网页列表。在本实施例中,所述步骤S3基于优先顺序和抓取频率有序地对数据进行数据处理,包括:S31,通过算法技术,请求站点的行为,把网络站点返回的网络数据爬到本地,进而提取需要的数据;S33,将所述提取的数据存放保存到数据库服务器上,以便通过接口方式提供给前台数据展示使用。在本实施例中,所述算法技术为Python网络爬虫技术。在本实施例中,所述网络数据包括HTML代码或/和JSON数据或/和二进制数据。在本实施例中,所述获取关键字的数量可以为一个或多个。在本实施例中,所述抓取信息的方法,还包括:将进行处理后的数据展示在前台网站和整合相关数据推送给用户。在本实施例中,所述推送相关数据可以选择定时推送。下面结合实施例。对本专利技术进行详细的说明。首先,获取用户定制化需求配置的关键字。参照图2,本专利技术实施例中,当需要通过关键字来全网获取网址和网页,用户需在前台终端填写配置关键字,并把该关键字存储到MySql数据库服务器上,以便于后期通过关键字来抓取数据。然后,全网搜索需求数据相关网址及网页。通过服务的方式从oracle数据库中读取用户配置的关键字;有序的通过搜索引擎来搜索关键字来获取网址及网页列表。参照图3,最后,基于优先顺序和抓取频率有序的对数据进行采集、处理、存储等。主要为Python网络爬虫技术,在步骤S102基础上,通过编写python程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)爬到本地,进而提取自己需要的数据,存放保存到MySql数据库服务器上,以便通过接口方式提供给前台数据展示使用。本专利技术通过配置关键字搜索获取所有相关网址url列表,然后有序的逐个的抓取各个url网站上相关匹配到的数据信息过滤后保存到数据库,然后再把相关抓取到的数据展示在前台网站和定时打包把相关数据推送给客户,从而节省大量时间,提高效率。以上所述的具体实施例,对本专利技术的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本专利技术的具体实施例而已,并不用于限定本专利技术的保护范围。特别指出,对于本领域技术人员来说,凡在本专利技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种利用关键字联想方式抓取信息的方法,其特征在于,包括:获取用户定制化需求配置的关键字;根据所述关键字搜索需求数据相关网址及网页;基于优先顺序和抓取频率有序地对数据进行数据处理。

【技术特征摘要】
1.一种利用关键字联想方式抓取信息的方法,其特征在于,包括:获取用户定制化需求配置的关键字;根据所述关键字搜索需求数据相关网址及网页;基于优先顺序和抓取频率有序地对数据进行数据处理。2.如权利要求1所述的方法,其特征在于,所述数据处理包括数据采集、数据分析和数据存储。3.如权利要求1所述的方法,其特征在于,所述获取用户定制化需求配置的关键字,还包括:将所述关键字存储到数据库服务器上。4.如权利要求1所述的方法,其特征在于,所述根据所述关键字搜索需求数据相关网址及网页,包括:从数据库中读取用户配置的关键字;有序地通过搜索引擎来搜索关键字来获取网址及网页列表。5.如权利要求1所述的方法,其特征在于,所述基于优先顺序和抓取频率有序地对数据进行...

【专利技术属性】
技术研发人员:陈星乌斯曼可尼亚齐谭京涛
申请(专利权)人:广州市西美信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1