The invention discloses a method of capturing information by keyword association, which includes: acquiring keywords of customized user requirement configuration; searching relevant web sites and webpages according to the keywords; orderly data processing based on priority and capture frequency; and acquiring URL lists of all relevant web sites by configuring keyword search. After that, the relevant matched data information on each URL website is filtered one by one and saved to the database. Then the relevant captured data is displayed on the front-end website and packaged regularly to push the relevant data to the customers, which saves a lot of time and improves efficiency.
【技术实现步骤摘要】
一种利用关键字联想方式抓取信息的方法
本专利技术涉及大数据分析领域,尤其涉及一种利用关键字联想方式抓取信息的方法。
技术介绍
随着网络的发展,大数据分析被广泛应用在各行各业,尤其是对网络数据的抓取的应用尤为广泛。但现有技术中的数据抓取普遍的是基于特定网址或者网页,这种方式需要事先知道相关网页地址,而不能主动地对所有网页网址进行相应的数据检索,这样对相关需求数据的采集会很有限,而且人工成本和时间成本会更高,并且还不一定能满足客户更全面的数据要求。
技术实现思路
本专利技术提供了一种利用关键字联想方式抓取信息的方法,以解决只能按照特定网址或者网页进行数据抓取的技术问题,从而主动地对所有网页网址进行相应的数据检索,进而实现主动地把相关抓取到的数据展示在前台网站和定时打包把相关数据推送给客户,节省大量时间,提高效率。为了解决上述技术问题,本专利技术实施例提供了一种利用关键字联想方式抓取信息的方法,包括:获取用户定制化需求配置的关键字;根据所述关键字搜索需求数据相关网址及网页;基于优先顺序和抓取频率有序地对数据进行数据处理。作为优选方案,所述数据处理包括数据采集、数据分析和数据存储。作为优选方案,所述获取用户定制化需求配置的关键字,还包括:将所述关键字存储到数据库服务器上。作为优选方案,所述根据所述关键字搜索需求数据相关网址及网页,包括:从数据库中读取用户配置的关键字;有序地通过搜索引擎来搜索关键字来获取网址及网页列表。作为优选方案,所述基于优先顺序和抓取频率有序地对数据进行数据处理,包括:通过算法技术,请求站点的行为,把网络站点返回的网络数据爬到本地,进而提取需要的数 ...
【技术保护点】
1.一种利用关键字联想方式抓取信息的方法,其特征在于,包括:获取用户定制化需求配置的关键字;根据所述关键字搜索需求数据相关网址及网页;基于优先顺序和抓取频率有序地对数据进行数据处理。
【技术特征摘要】
1.一种利用关键字联想方式抓取信息的方法,其特征在于,包括:获取用户定制化需求配置的关键字;根据所述关键字搜索需求数据相关网址及网页;基于优先顺序和抓取频率有序地对数据进行数据处理。2.如权利要求1所述的方法,其特征在于,所述数据处理包括数据采集、数据分析和数据存储。3.如权利要求1所述的方法,其特征在于,所述获取用户定制化需求配置的关键字,还包括:将所述关键字存储到数据库服务器上。4.如权利要求1所述的方法,其特征在于,所述根据所述关键字搜索需求数据相关网址及网页,包括:从数据库中读取用户配置的关键字;有序地通过搜索引擎来搜索关键字来获取网址及网页列表。5.如权利要求1所述的方法,其特征在于,所述基于优先顺序和抓取频率有序地对数据进行...
【专利技术属性】
技术研发人员:陈星,乌斯曼可尼亚齐,谭京涛,
申请(专利权)人:广州市西美信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。