The invention discloses a method of data acquisition based on PHP custom rules, which generates acquisition client based on guzzle component, obtains target website, reads its text content, and performs file slicing to complete data extraction. The invention also discloses a data acquisition system based on PHP custom rules, including acquisition generation module, text reading module and data extraction module. The method adopts PHP development language and guzzle component as the acquisition client. After reading the text content, the method of text location slicing is used for file slicing. It reduces the difficulty of acquisition rules and the cost of learning and using, improves the efficiency of acquisition, and can complete the data acquisition of a specific website type in a few minutes.
【技术实现步骤摘要】
一种基于PHP自定义规则进行数据采集的方法及其系统
本专利技术涉及网络爬虫
,具体涉及一种基于PHP自定义规则进行数据采集的方法及其系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本;另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。传统的数据采集方法通常需要安装第三方客户端,采集过程复杂,采集方法使用困难;采集图片时不能采集其tag,即使采集了,也易造成程序处理入库不方便的问题。
技术实现思路
基于此,针对上述问题,有必要提出一种降低了采集规则难度与学习使用成本,能够在数分钟内完成一个特定网站类型的数据采集的基于PHP自定义规则进行数据采集的方法及其系统。本专利技术提供一种基于PHP自定义规则进行数据采集的方法,其技术方案如下:一种基于PHP自定义规则进行数据采集的方法,包括以下步骤:a、基于guzzle组件,生成采集客户端;b、获取目标网站,读取其文本内容;c、进行文件切片,完成数据提取。在本技术方案中,采用php开发语言并使用guzzle组件作为采集客户端(可以方便随机模拟多种采集平台),读取到文本内容后,使用文本定位切片方法进行文件切片;可作为通用采集数据工具,降低了采集规则难度与学习使用成本,能够在数分钟内完成一个特定网站类型的数据采集。优选的,所述步骤a包括以下步骤:根据需求,将生成的采集客户端模拟成相应的采集平台。采集客户端在使用时,可根据需求模拟多种采集平台;克服了传统数据采集还必需要安装第三方客户端等问题,增强了数据采 ...
【技术保护点】
1.一种基于PHP自定义规则进行数据采集的方法,其特征在于,包括以下步骤:a、基于guzzle组件,生成采集客户端;b、获取目标网站,读取其文本内容;c、进行文件切片,完成数据提取。
【技术特征摘要】
1.一种基于PHP自定义规则进行数据采集的方法,其特征在于,包括以下步骤:a、基于guzzle组件,生成采集客户端;b、获取目标网站,读取其文本内容;c、进行文件切片,完成数据提取。2.根据权利要求1所述的基于PHP自定义规则进行数据采集的方法,其特征在于,所述步骤a包括以下步骤:根据需求,将生成的采集客户端模拟成相应的采集平台。3.根据权利要求1或2所述的基于PHP自定义规则进行数据采集的方法,其特征在于,所述步骤c包括以下步骤:读取文本内容后,分析其元素,并定位切片标签;根据定位切片标签所处的开始标签和结束标签,定义相应的规则。4.根据权利要求3所述的基于PHP自定义规则进行数据采集的方法,其特征在于,所述步骤c还包括以下步骤:获取从大到小依次切片后的标签,并定位到循环标签;基于TAG标签进行数组切片。5.根据权利要求4所述的基于PHP自定义规则进行数据采集的方法,其特征在于,所述步骤c还包括以下步骤:将循环标签转换为数组,提取所需的字段;根据字段得到所需的URL,并进行URL修复。6.一种基于PHP自定义规则进行数据采集的系统,其特征在于,包括采集生成模块、文本读取模块和数据提取模块,其中:采集生成模块,基于guzzle组件,生成采集...
【专利技术属性】
技术研发人员:任毅,刘伟,
申请(专利权)人:四川商通实业有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。