The invention provides a home appliance data acquisition method and device, wherein, the method comprises the following steps: pre configured rules for grasping, also includes determining at least one acquisition target, wherein each of the collection comprises at least one layer of \target; for each of the acquisition targets are executed by the grasping rules acquisition data from the current web page layer acquisition target, analyzing the data using the page parsing rules preconfigured with the current acquisition target layers\ corresponding to the generation of home appliance data; storing the data of home appliances. The scheme provided by the invention can improve the flexibility of the data acquisition of the household appliances.
【技术实现步骤摘要】
一种家电数据采集方法和装置
本专利技术涉及计算机
,特别涉及一种家电数据采集方法和装置。
技术介绍
随着计算机网络的发展,通过互联网进行线上销售已经成为家电销售的主要渠道。用户在不同的网页上浏览家电产品时,会产生大量的数据,这些家电数据对于家电企业分析市场需求是至关重要的,因此,如何从网页上采集这些家电数据是技术人员一直关注的问题。现有技术中,一般通过预先编写好的采集程序从不同的网页中采集家电数据。但是,当网页的页面布局或者提取需求发生变化时,该方法必须重新编写采集程序。因此,现有的方法采集家电数据时的灵活性较低。
技术实现思路
本专利技术实施例提供了一种家电数据采集方法和装置,能够提高家电数据采集的灵活性。第一方面,本专利技术实施例提供了一种家电数据采集方法,预先配置抓取规则,还包括:确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;针对每一个所述采集目标,均执行:利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。优选地,所述利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据,包括:S1:确定当前采集目标中网页的层数;S2:在所述当前采集目标的各层网页中确定当前层网页;S3:利用所述抓取规则采集所述当前层网页的页面数据,将所述当前层网页对应的当前层记录为已采集层;S4:利用预先配置的与所述当前层网页相对应的解析规则对所述 ...
【技术保护点】
一种家电数据采集方法,其特征在于,预先配置抓取规则,还包括:确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;针对每一个所述采集目标,均执行:利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。
【技术特征摘要】
1.一种家电数据采集方法,其特征在于,预先配置抓取规则,还包括:确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;针对每一个所述采集目标,均执行:利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。2.根据权利要求1所述的家电数据采集方法,其特征在于,所述利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据,包括:S1:确定当前采集目标中网页的层数;S2:在所述当前采集目标的各层网页中确定当前层网页;S3:利用所述抓取规则采集所述当前层网页的页面数据,将所述当前层网页对应的当前层记录为已采集层;S4:利用预先配置的与所述当前层网页相对应的解析规则对所述当前层网页的页面数据进行解析,生成当前层网页数据和目标层网页地址;S5:判断所述已采集层的数量是否等于所述层数,如果是,执行S6,否则,执行S7;S6:将所述当前采集目标的各层网页数据进行合并,生成家电数据;S7:确定所述目标层网页地址对应的目标层网页,将所述当前层网页更新为所述目标层网页,执行S3。3.根据权利要求1所述的家电数据采集方法,其特征在于,进一步包括:预先设置存储方式;所述存储所述家电数据,包括:利用所述存储方式存储所述家电数据;所述存储方式,包括:健值对存储、分布式数据库存储和文件索引式数据库存储中任意一种。4.根据权利要求1-3中任一所述的家电数据采集方法,其特征在于,在所述利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据之后,在所述存储所述家电数据之前,进一步包括:按照预先设置的格式类型对所述家电数据进行格式化处理;所述存储所述家电数据,包括:存储格式化后的所述家电数据。5.一种家电数据采集装置,其特征在于,包括:配置单元,用于配置抓取规则;确定单元,用于确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;处理单元,用于针对所述确定单元...
【专利技术属性】
技术研发人员:昝剑,
申请(专利权)人:绵阳美菱软件技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。