一种家电数据采集方法和装置制造方法及图纸

技术编号:16644909 阅读:39 留言:0更新日期:2017-11-26 17:25
本发明专利技术提供了一种家电数据采集方法和装置,其中,该方法包括:预先配置抓取规则,还包括:确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;针对每一个所述采集目标,均执行:利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。本发明专利技术提供的方案能够提高家电数据采集的灵活性。

Data acquisition method and device for household appliances

The invention provides a home appliance data acquisition method and device, wherein, the method comprises the following steps: pre configured rules for grasping, also includes determining at least one acquisition target, wherein each of the collection comprises at least one layer of \target; for each of the acquisition targets are executed by the grasping rules acquisition data from the current web page layer acquisition target, analyzing the data using the page parsing rules preconfigured with the current acquisition target layers\ corresponding to the generation of home appliance data; storing the data of home appliances. The scheme provided by the invention can improve the flexibility of the data acquisition of the household appliances.

【技术实现步骤摘要】
一种家电数据采集方法和装置
本专利技术涉及计算机
,特别涉及一种家电数据采集方法和装置。
技术介绍
随着计算机网络的发展,通过互联网进行线上销售已经成为家电销售的主要渠道。用户在不同的网页上浏览家电产品时,会产生大量的数据,这些家电数据对于家电企业分析市场需求是至关重要的,因此,如何从网页上采集这些家电数据是技术人员一直关注的问题。现有技术中,一般通过预先编写好的采集程序从不同的网页中采集家电数据。但是,当网页的页面布局或者提取需求发生变化时,该方法必须重新编写采集程序。因此,现有的方法采集家电数据时的灵活性较低。
技术实现思路
本专利技术实施例提供了一种家电数据采集方法和装置,能够提高家电数据采集的灵活性。第一方面,本专利技术实施例提供了一种家电数据采集方法,预先配置抓取规则,还包括:确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;针对每一个所述采集目标,均执行:利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。优选地,所述利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据,包括:S1:确定当前采集目标中网页的层数;S2:在所述当前采集目标的各层网页中确定当前层网页;S3:利用所述抓取规则采集所述当前层网页的页面数据,将所述当前层网页对应的当前层记录为已采集层;S4:利用预先配置的与所述当前层网页相对应的解析规则对所述当前层网页的页面数据进行解析,生成当前层网页数据和目标层网页地址;S5:判断所述已采集层的数量是否等于所述层数,如果是,执行S6,否则,执行S7;S6:将所述当前采集目标的各层网页数据进行合并,生成家电数据;S7:确定所述目标层网页地址对应的目标层网页,将所述当前层网页更新为所述目标层网页,执行S3。优选地,进一步包括:预先设置存储方式;所述存储所述家电数据,包括:利用所述存储方式存储所述家电数据;所述存储方式,包括:健值对存储、分布式数据库存储和文件索引式数据库存储中任意一种。优选地,在所述利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据之后,在所述存储所述家电数据之前,进一步包括:按照预先设置的格式类型对所述家电数据进行格式化处理;所述存储所述家电数据,包括:存储格式化后的所述家电数据。第二方面,本专利技术实施例提供了一种家电数据采集装置,包括:配置单元,用于配置抓取规则;确定单元,用于确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;处理单元,用于针对所述确定单元确定的每一个所述采集目标,均执行:利用所述配置单元配置的所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。优选地,所述处理单元,包括:确定子单元,用于确定当前采集目标中网页的层数;在所述当前采集目标的各层网页中确定当前层网页;采集子单元,用于利用所述抓取规则采集所述确定子单元确定的所述当前层网页的页面数据,将所述当前层网页对应的当前层记录为已采集层;解析子单元,用于利用预先配置的与所述当前层网页相对应的解析规则对所述采集子单元采集的所述当前层网页的页面数据进行解析,生成当前层网页数据和目标层网页地址;判断子单元,用于判断所述采集子单元记录的所述已采集层的数量是否等于所述确定子单元确定的所述层数,如果是,触发生成子单元,否则,触发更新子单元;所述生成子单元,用于将所述当前采集目标的各层网页数据进行合并,生成家电数据;所述更新子单元,用于确定所述目标层网页地址对应的目标层网页,将所述当前层网页更新为所述目标层网页,触发所述采集子单元。优选地,进一步包括:设置单元,用于设置存储方式;所述处理单元,用于利用所述设置单元设置的所述存储方式存储所述家电数据;所述存储方式,包括:健值对存储、分布式数据库存储和文件索引式数据库存储中任意一种。优选地,所述处理单元,进一步用于按照预先设置的格式类型对所述家电数据进行格式化处理;所述处理单元,用于存储格式化后的所述家电数据。第三方面,本专利技术实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一实施例所述的方法。第四方面,本专利技术实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一实施例所述的方法。本专利技术实施例提供了一种家电数据采集方法和装置,其中,该方法能够利用预先配置的抓取规则从不同层的网页采集页面数据,并利用预先配置的与各层网页相对应的解析规则对相应的页面数据进行解析,得到家电数据。当网站的页面布局或者提取需求发生变化时,该方法只需更改配置的抓取规则和解析规则,无需重新编写采集程序。因此,现有的方法能够提高家电数据采集的灵活性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种家电数据采集方法的流程图;图2是本专利技术另一个实施例提供的一种家电数据采集方法的流程图;图3是本专利技术一个实施例提供的一种家电数据采集装置的结构示意图;图4是本专利技术另一个实施例提供的一种家电数据采集装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种家电数据采集方法,该方法可以包括以下步骤:步骤101:配置抓取规则;步骤102:确定至少一个采集目标,其中,每一个采集目标中包括至少一层网页;步骤103:针对每一个采集目标,均执行:利用抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与当前采集目标的各层网页相对应的解析规则对页面数据进行解析,生成家电数据;存储家电数据。在图1所示的本专利技术实施例中,该方法能够利用预先配置的抓取规则从不同层的网页采集页面数据,并利用预先配置的与各层网页相对应的解析规则对相应的页面数据进行解析,得到家电数据。当网站的页面布局或者提取需求发生变化时,该方法只需更改配置的抓取规则和解析规则,无需重新编写采集程序。因此,现有的方法能够提高家电数据采集的灵活性。近年来,随着互联网技术的发展,线上平台成为家电销售的重要渠道,家电企业可以通过自身研发的线上平台或者通过第三方的平台销售家电。家电厂商为了分析消费者的习惯、确本文档来自技高网...
一种家电数据采集方法和装置

【技术保护点】
一种家电数据采集方法,其特征在于,预先配置抓取规则,还包括:确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;针对每一个所述采集目标,均执行:利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。

【技术特征摘要】
1.一种家电数据采集方法,其特征在于,预先配置抓取规则,还包括:确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;针对每一个所述采集目标,均执行:利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据;存储所述家电数据。2.根据权利要求1所述的家电数据采集方法,其特征在于,所述利用所述抓取规则从当前采集目标的各层网页中采集页面数据,利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据,包括:S1:确定当前采集目标中网页的层数;S2:在所述当前采集目标的各层网页中确定当前层网页;S3:利用所述抓取规则采集所述当前层网页的页面数据,将所述当前层网页对应的当前层记录为已采集层;S4:利用预先配置的与所述当前层网页相对应的解析规则对所述当前层网页的页面数据进行解析,生成当前层网页数据和目标层网页地址;S5:判断所述已采集层的数量是否等于所述层数,如果是,执行S6,否则,执行S7;S6:将所述当前采集目标的各层网页数据进行合并,生成家电数据;S7:确定所述目标层网页地址对应的目标层网页,将所述当前层网页更新为所述目标层网页,执行S3。3.根据权利要求1所述的家电数据采集方法,其特征在于,进一步包括:预先设置存储方式;所述存储所述家电数据,包括:利用所述存储方式存储所述家电数据;所述存储方式,包括:健值对存储、分布式数据库存储和文件索引式数据库存储中任意一种。4.根据权利要求1-3中任一所述的家电数据采集方法,其特征在于,在所述利用预先配置的与所述当前采集目标的各层网页相对应的解析规则对所述页面数据进行解析,生成家电数据之后,在所述存储所述家电数据之前,进一步包括:按照预先设置的格式类型对所述家电数据进行格式化处理;所述存储所述家电数据,包括:存储格式化后的所述家电数据。5.一种家电数据采集装置,其特征在于,包括:配置单元,用于配置抓取规则;确定单元,用于确定至少一个采集目标,其中,每一个所述采集目标中包括至少一层网页;处理单元,用于针对所述确定单元...

【专利技术属性】
技术研发人员:昝剑
申请(专利权)人:绵阳美菱软件技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1