一种商品采集调度方法及系统技术方案

技术编号:17780912 阅读:20 留言:0更新日期:2018-04-22 10:04
本发明专利技术涉及电子商务技术领域,具体涉及一种商品采集调度方法及系统,该方法包括:为所有要采集商品设置采集标记;设置不同等级的采集频率,所述不同等级的采集频率包括:第一频率;以所述第一频率采集所有要采集商品的URL,根据所述商品的URL将商品信息存储到数据库;根据所述商品信息,计算商品采集时间距离上一次变价时间的天数,根据所述天数将所述采集标记指定为不同等级的采集频率,以对商品进行不同等级采集频率的采集。通过本发明专利技术,提高了商品采集系统的效率以及实用性。

【技术实现步骤摘要】
一种商品采集调度方法及系统
本专利技术涉及电子商务
,具体涉及一种商品采集调度方法及系统。
技术介绍
商品采集调度是指在采集商品信息过程中,根据商品价格的变动规律,制定出特殊的个性化的采集策略。随着商品采集数量的增多,围绕商品采集调度开展的调度策略以及系统也日益增多。海量的商品数据包含了商品的各种标题、图片、规格、评论、优惠以及价格等信息。其中对于价格采集进行调度的研究也是非常有价值的。常规商品采集流程如下:(一)从网站入口页获取列表页URL(UniformResourceLocator,统一资源定位符),对列表页的URL格式处理,同一个网站内部的列表页URL格式相同;遍历列表页URL获取商品单页URL、商品标题、图片等信息,将列表页URL和单页商品URL以及商品标题、图片等信息保存到数据库,并且要给商品价格赋值作为初始价格,价格更新时间、商品进入数据库的时间等信息都要进行初始化。(二)从数据库中取出所有单页URL,分析页面结构,采集优惠信息、库存、规格、品牌等属性,处理后存放到数据库中。将商品每次的价格变动信息单独存放,日后便于查看商品的价格变动,也可以据此生成包含商品的所有历史价格节点的价格曲线。但是,随着商品的日益增多,数据量呈现爆炸式增长。要做到尽可能的及早感知到商品的价格变动,需要以最短的采集间隔对商品进行全量采集(对所有商品进行采集)。目前策略的拟定完全参考历史价格变动,并且基于一个假设,即最近一段时间内,价格长期未变的商品,在短期内价格可能也不会变化。如果商品的真实价格变动不吻合这个假设,可能会导致一些价格变动采集未能完全覆盖。进一步,通过对25万某一电商商品价格曲线研究发现,超过半数的商品在60天以内价格没有变动(如表1所示)。在对比商品的区间占比和精确占比时不难发现,商品价格的变动总是集中在部分商品身上。如果按照常规全量采集的话,不但是对采集资源极大的浪费,而且影响了对其他商品价格的及时采集,价格敏感性(是否能及时采集到价格变动的商品)随之降低。表1
技术实现思路
针对上述缺陷与不同,本专利技术提供了一种商品采集调度方法及系统,以提高商品采集系统的效率以及实用性。为了实现上述目的,本专利技术提供了如下技术方案:一种商品采集调度方法,所述方法包括:为所有要采集商品设置采集标记;设置不同等级的采集频率,所述不同等级的采集频率包括:第一频率;以所述第一频率采集所有要采集商品的URL,根据所述商品的URL将商品信息存储到数据库;根据所述商品信息,计算商品采集时间距离上一次变价时间的天数,根据所述天数将所述采集标记指定为不同等级的采集频率,以对商品进行不同等级采集频率的采集。优选地,所述不同等级的采集频率还包括:第二频率,所述第二频率低于所述第一频率;所述根据所述天数将所述采集标记指定为不同等级的采集频率包括:检测所述天数是否大于或等于第一设定天数并且小于第二设定天数,所述第二设定天数大于所述第一设定天数;如果是,将所述采集标记指定为所述第二频率,以对商品进行第二频率的采集。优选地,所述不同等级的采集频率还包括:第三频率,所述第三频率低于所述第二频率;所述根据所述天数将所述采集标记指定为不同等级的采集频率包括:在所述天数大于第一设定天数时,检测所述天数是否大于第二设定天数;如果是,将所述采集标记指定为所述第三频率,以对商品进行第三频率的采集。优选地,所述根据所述采集标记对商品进行不同等级采集频率的采集包括:根据当前采集时间与上一次采集时间检测商品是否达到所述采集标记指定的频率;如果是,继续采集商品的URL;检测商品的价格是否有变动;如果是,指定所述采集标记为所述第一频率,以对商品进行第一频率的采集。优选地,所述方法还包括:如果商品的价格没有变动,使所述采集标记保持指定的采集频率或者根据所述天数将所述采集标记降低为下一等级的采集频率。优选地,所述如果商品的价格没有变动,使所述采集标记保持指定的采集频率或者根据所述天数将所述采集标记降低为下一等级的采集频率包括:当所述采集标记指定的频率为第一频率时,如果商品价格没有变动;计算商品采集时间距离上一次变价时间的天数;检测所述天数是否大于第一设定天数;如果是,将所述采集标记降低为第二频率,以对商品进行第二频率的采集。优选地,所述如果商品的价格没有变动,使所述采集标记保持指定的采集频率或者根据所述天数将所述采集标记降低为下一等级的采集频率包括:当所述采集标记指定的频率为第二频率时,如果商品价格没有变动;计算商品采集时间距离上一次变价时间的天数;检测所述天数是否大于所述第二设定天数;如果是,将所述采集标记降低为第三频率,以对商品进行第三频率的采集。优选地,所述如果商品的价格没有变动,使所述采集标记保持指定的采集频率或者根据所述天数将所述采集标记降低为下一等级的采集频率包括:当所述采集标记指定的频率为第三频率时,如果商品价格没有变动;使所述采集标记保持为第三频率。一种商品采集调度系统,包括:采集器以及数据库;所述采集器为所有要采集商品设置采集标记,并设置不同等级的采集频率,所述不同等级的采集频率包括:第一频率;所述采集器以所述第一频率采集所有要采集商品的URL,通过调用WCF将商品信息存储到所述数据库;所述采集器根据数据库的商品信息计算当前商品采集时间距离上一次变价时间的天数,并根据所述天数将所述采集标记指定为不同等级的采集频率,以对商品进行不同等级采集频率的采集。优选地,所述不同等级的采集频率还包括:第二频率、第三频率,所述第二频率低于所述第一频率,所述第三频率低于所述第二频率;所述采集器在所述天数大于第一设定天数并且小于第二设定天数时,将所述采集标记指定为所述第二频率;所述采集器在所述天数大于第二设定天数时,将所述采集标记指定为所述第三频率,所述第二设定天数大于所述第一设定天数。本专利技术的有益效果在于:本专利技术实施例提供的商品采集调度方法及系统,采集器为所有要采集商品设置采集标记,并设置不同等级的采集频率,所述不同等级的采集频率包括:第一频率;所述采集器以所述第一频率采集所有要采集商品的URL,通过调用WCF将商品信息存储到数据库;所述采集器根据数据库的商品信息计算当前商品采集时间距离上一次变价时间的天数,并根据所述天数将所述采集标记指定为不同等级的采集频率。通过本专利技术,提高了商品采集系统的效率以及实用性。附图说明图1是本专利技术实施例商品采集调度方法的第一种流程图。图2是本专利技术实施例商品采集调度方法的第二种流程图。图3是本专利技术实施例商品采集调度方法的第三种流程图。图4是本专利技术实施例中当采集标记指定的频率为第一频率时图3中步骤306-310的具体流程图。图5是本专利技术实施例中当采集标记指定的频率为第二频率时图3中步骤306-310的具体流程图。图6是本专利技术实施例中当采集标记指定的频率为第三频率时图3中步骤306-310的具体流程图。具体实施方式为了使本领域技术人员能更进一步了解本专利技术的特征及
技术实现思路
,下面结合附图和实施方式对本专利技术实施例作详细说明。如图1所示是本专利技术实施例商品采集调度方法的第一种流程图,包括以下步骤:步骤100:开始。步骤101:为所有要采集商品设置采集标记。需要说明的是,本专利技术可以由采集器对所有要采集商品设置采集标记,采集器根据所述采集标记内容本文档来自技高网
...
一种商品采集调度方法及系统

【技术保护点】
一种商品采集调度方法,其特征在于,所述方法包括:为所有要采集商品设置采集标记;设置不同等级的采集频率,所述不同等级的采集频率包括:第一频率;以所述第一频率采集所有要采集商品的URL,根据所述商品的URL将商品信息存储到数据库;根据所述商品信息,计算商品采集时间距离上一次变价时间的天数,根据所述天数将所述采集标记指定为不同等级的采集频率,以对商品进行不同等级采集频率的采集。

【技术特征摘要】
1.一种商品采集调度方法,其特征在于,所述方法包括:为所有要采集商品设置采集标记;设置不同等级的采集频率,所述不同等级的采集频率包括:第一频率;以所述第一频率采集所有要采集商品的URL,根据所述商品的URL将商品信息存储到数据库;根据所述商品信息,计算商品采集时间距离上一次变价时间的天数,根据所述天数将所述采集标记指定为不同等级的采集频率,以对商品进行不同等级采集频率的采集。2.根据权利要求1所述的商品采集调度方法,其特征在于,所述不同等级的采集频率还包括:第二频率,所述第二频率低于所述第一频率;所述根据所述天数将所述采集标记指定为不同等级的采集频率包括:检测所述天数是否大于或等于第一设定天数并且小于第二设定天数,所述第二设定天数大于所述第一设定天数;如果是,将所述采集标记指定为所述第二频率,以对商品进行第二频率的采集。3.根据权利要求2所述的商品采集调度方法,其特征在于,所述不同等级的采集频率还包括:第三频率,所述第三频率低于所述第二频率;所述根据所述天数将所述采集标记指定为不同等级的采集频率包括:在所述天数大于第一设定天数时,检测所述天数是否大于第二设定天数;如果是,将所述采集标记指定为所述第三频率,以对商品进行第三频率的采集。4.根据权利要求3所述的商品采集调度方法,其特征在于,所述根据所述采集标记对商品进行不同等级采集频率的采集包括:根据当前采集时间与上一次采集时间检测商品是否达到所述采集标记指定的频率;如果是,继续采集商品的URL;检测商品的价格是否有变动;如果是,指定所述采集标记为所述第一频率,以对商品进行第一频率的采集。5.根据权利要求4所述的商品采集调度方法,其特征在于,所述方法还包括:如果商品的价格没有变动,使所述采集标记保持指定的采集频率或者根据所述天数将所述采集标记降低为下一等级的采集频率。6.根据权利要求5所述的商品采集调度方法,其特征在于,所述如果商品的价格没有变动,使所述采集标记保持指定的采集频率或者根据所述天数将所述采集...

【专利技术属性】
技术研发人员:崔俊
申请(专利权)人:北京值得买科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1