商品自动化采集与迁移方法技术

技术编号:21036722 阅读:20 留言:0更新日期:2019-05-04 06:18
本发明专利技术属于商品数据采集与迁移技术领域,具体涉及一种商品自动化采集与迁移方法,包括如下步骤:S1,设置商品页面URL规则以及URL中的变量;S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;S5,将S4中的预设数据包迁移到预设平台页面。本发明专利技术的方法省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。

【技术实现步骤摘要】
商品自动化采集与迁移方法
本专利技术属于商品数据采集与迁移
,具体涉及一种商品自动化采集与迁移方法。
技术介绍
相关技术中,业内的商品数据采集方法可以具备采集淘宝、天猫、京东、国美在线、苏宁易购等一线电商平台中的商品数据的功能,包括商品标题、主图、价格等属性数据,其优点是已经满足了一线电商平台的在线商家的需求,使用起来也很方便。但是也存在一些不足,具体如下:只支持固定页面格式的电商数据采集,如果电商平台页面结构发生变化,则此类采集方法会受到很大制约。另外,该采集方式也不支持二线电商平台的数据采集与自动化迁移,比如,某省或市县级的供销社电商平台中的商品数据就无法通过此类工具进行采集和数据迁移,如要完成此项工作,目前还是以人工重新录入、投入开发人员对接等方式来完成,无疑是增加了很大的成本。商品详情页的数据不支持与原系统保持一致,特别是图文混排的详情数据,在导入新系统后往往还需要人工重新编辑一次。
技术实现思路
有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种商品自动化采集与迁移方法,以解决现有技术中商品数据的采集方法不适用复杂多变的电商平台页面结构的技术问题,以及改善受制于该采集方法而增加劳动成本的弊端。为实现以上目的,本专利技术采用如下技术方案:本申请提供一种商品自动化采集与迁移方法,包括如下步骤:S1,设置商品页面URL规则以及URL中的变量;S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;S5,将S4中的预设数据包迁移到预设平台页面。进一步的,S2中所述商品源数据包括文字及商品图片信息;所述数据库一是NOSQL-MongoDB数据库;所述数据库二是MySql和MongoDB。上述的商品自动化采集与迁移方法中,S2遍历过程中,遇到空的商品URL,自动抛弃并记录。上述的商品自动化采集与迁移方法中,S3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。上述的商品自动化采集与迁移方法中,S4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。上述的商品自动化采集与迁移方法中,S5中所述将S4中的预设数据包迁移到预设平台页面之后,还包括在平台上发布的步骤S6:迁移后为待发布状态,是否发布等待校核数据之后;如果数据校核成功,则在预设平台页面上发布;如果数据校核未成功,则暂缓发布。上述的商品自动化采集与迁移方法中,S6中需要校核的数据包括:店铺信息确认、商品分类确认以及品牌信息确认。上述的商品自动化采集与迁移方法中,所述店铺信息确认包括,检测预设平台页面中是否含有所述预设数据包中的店铺信息;如果预设平台页面中不存在该预设数据包中的店铺信息,则创建并初始化相关属性数据项,新创建的店铺信息默认为“待启用”状态,经管理审核后可批量启用;如果预设平台页面中存在该预设数据包中的店铺信息,则将该预设数据包中的店铺信息对应的批量商品匹配到预设平台页面中存在的店铺中。上述的商品自动化采集与迁移方法中,所述商品分类确认包括,检测预设平台页面中是否含有所述预设数据包中的商品分类信息;如果预设平台页面中不存在该预设数据包中的商品分类信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。上述的商品自动化采集与迁移方法中,所述品牌信息确认包括,检测预设平台页面中是否含有所述预设数据包中的品牌信息;如果预设平台页面中不存在该预设数据包中的品牌信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。上述的商品自动化采集与迁移方法中,标题、价格、主图和商品详情信息元素属于商品数据。上述的商品自动化采集与迁移方法中,待店铺信息、商品分类信息匹配完成后,商品数据匹配迁入到预设平台页面中;迁入的商品数据默认为“待审核”状态,经审核后在线上发布。本专利技术采用以上技术方案,能够达到的有益效果包括:省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种商品自动化采集与迁移方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。本专利技术通过“数据采集”、“自动学习”、“数据迁入”三大步骤,主要思路就是先根据规则把要采集平台的商品数据全部采集并做保存,然后再对采集到的商品数据进行模拟学习并把学习成果保存后校核,确认之后再进行数据的迁入工作,迁入到预设平台页面。下面结合附图介绍本申请实施例中提供的一个具体的商品自动化采集与迁移方法。如图1所示,一种商品自动化采集与迁移方法,包括如下步骤:S1,设置商品页面URL规则以及URL中的变量;S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;S5,将S4中的预设数据包迁移到预设平台页面。上述的商品自动化采集与迁移方法中,设置商品页面URL规则以及URL中的变量的具体方式可以采用如下方式:1、以商品URL为采集思路,以下提供两种采集方式1.1和1.2:1.1、URL_part1+变量+URL_part2,如:“http://product.gxyj.com/”+“*#n#*”+“.html”,并设置这里的变量n的范围,如000001到999999,可以根据此规则设置多个变量。采集商品URL的方式还可以采用如下办法:1.2、批量导入完整的商品URL,导入的格式可以是文本文件、EXCEL。2、以店铺URL为采集思路,以下提供两种采集方式2.1和2.2::2.1、URL_part1+变量+URL_part2,如:“http://www.gxyj.com/shop/index.jhtml?shopId=”+“*#n#*”,并设置这里的变量n的范围,如000001到999999,可以根据此规则设置多个变量。机器人会自动识别每个店铺中的分类商品列表,并对商品信息逐一进行遍历采集。采集店铺URL的方式还可本文档来自技高网...

【技术保护点】
1.商品自动化采集与迁移方法,其特征在于,包括如下步骤:S1,设置商品页面URL规则以及URL中的变量;S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;S5,将S4中的预设数据包迁移到预设平台页面。

【技术特征摘要】
1.商品自动化采集与迁移方法,其特征在于,包括如下步骤:S1,设置商品页面URL规则以及URL中的变量;S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;S5,将S4中的预设数据包迁移到预设平台页面。2.根据权利要求1所述的商品自动化采集与迁移方法,其特征在于,S2中所述商品源数据包括文字及商品图片信息;所述数据库一是NOSQL-MongoDB数据库;所述数据库二是MySql和MongoDB。3.根据权利要求2所述的商品自动化采集与迁移方法,其特征在于,S2遍历过程中,遇到空的商品URL,自动抛弃并记录。4.根据权利要求3所述的商品自动化采集与迁移方法,其特征在于,S3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。5.根据权利要求4所述的商品自动化采集与迁移方法,其特征在于,S4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。6.根据权利要求5所述的商品自动化采集与迁移方法,其特征在于,S5中所述...

【专利技术属性】
技术研发人员:文付军郭建丰
申请(专利权)人:中合金网北京电子商务有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1