面向电商平台的农药信息采集方法技术

技术编号:21971506 阅读:43 留言:0更新日期:2019-08-28 01:29
本发明专利技术揭示了一种面向电商平台的农药信息采集方法,包括如下步骤:S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序;S2、对所爬取的数据进行解析,然后使用URL过滤算法对URL进行初步过滤,将过滤后的URL存储在URL队列中;S3、将经过解析后的数据临时存储在系统缓存中,随后对URL进行二次过滤;S4、将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中;S5、对系统数据库中的数据进行展示。本发明专利技术使用爬虫技术对指定的电商平台内的农药信息进行采集,通过归一化处理为判断农药产品的性价比提供了依据,方便了农民朋友的线上农药交易操作。

Pesticide Information Collection Method for E-commerce Platform

【技术实现步骤摘要】
面向电商平台的农药信息采集方法
本专利技术涉及一种信息采集方法,具体涉及一种运用爬虫技术实现的面向电商平台的农药信息采集方法,属于计算机数据挖掘以及信息处理

技术介绍
随着互联网技术的迅猛发展和广泛普及,利用互联网调研来获取农业大数据也逐渐成为大势所趋。农药作为农业生产过程中不可缺少的要素,在农业生产中发挥着重要的作用。在电商平台上购买农药无疑会更加方便实惠、并且选择更多,同时,农民朋友也有通过网络了解一些使用效果好、价格实惠的农药的实际需求。但是目前,电商市场上仍然充斥着大量假冒、劣质的农药,由于农药的特殊性和重要性,一旦选用了这些劣质农药,将会给给农民用户带来不可挽回的巨大损失。也正是由于这一原因,目前关于农药的线上贸易进程发展缓慢。因此,如何满足农民朋友在线上对买真药、买好药的需要是全社会都需要正视的一个问题。WebMagic是一种简单而灵活的Java爬虫框架。它具有简单的API(ApplicationProgrammingInterface,应用程序编程接口),学习成本低。同时,它还具备模块化的功能结构,可以轻松扩展。WebMagic可提供多线程和分布式支持,基于这一框架,技术人员能够快速开发出高效且可维护的爬虫。也正是由于上述技术条件,如何在现有技术的基础上提出一种运用爬虫技术实现的面向电商平台的农药信息采集方法,为农民朋友的线上农药交易提供便利,满足农民朋友买真药、买好药的需求,也就成为了本领域内技术人员共同的研究目标。
技术实现思路
鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种面向电商平台的农药信息采集方法,包括如下步骤:S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序;S2、对爬虫程序所爬取的数据进行解析,然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,将过滤后的农药商品页面的URL存储在URL队列中;S3、将经过解析后的数据临时存储在系统缓存中,随后对农药商品页面的URL进行二次过滤;S4、以批准证号为唯一标志,将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中;S5、对系统数据库中的数据进行展示。优选地,S2中所述爬虫程序所爬取的数据包括:农药品名、厂家、批准证号、单价、销量以及好评数量。优选地,S2中所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,具体包括:初始化URL过滤器中的URL列表,所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList;判断系统数据库总是否存在所需要爬取的农药商品页面的URL,若存在,则按重复次数对URL进行降序排序,以初始化VisitList,若不存在,则使用电商平台的索引页初始化VisitList。优选地,S3中所述对农药商品页面的URL进行二次过滤,具体包括:S31、对于经过S2中初步过滤后的农药商品页面的URL,在VisitList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程;S32、在VisitedList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程;S33、在数据库中查找所述URL是否存在,若存在,则按序进入下一流程,若不存在,则将所述URL视为一个新的URL,并将其添加到VisitList中;S34、判断所述URL是否已被访问过,若是,则将其添加到VisitedList中并对其重复数量进行加一,随后流程结束,若否,则将其添加到VisitList中并对其重复数量进行加一,随后流程结束。优选地,S4中所述完整的农药对象包括前序步骤中获取的全部农药商品信息。优选地,S5具体包括:S51、对系统数据库中的数据进行汇总统计,并针对各类数据进行归一化处理;S52、根据S51中所得的归一化处理结果,以农药批准号为唯一标识,以推荐度为标注、降序依次展示所采集的农药信息。优选地,S51具体包括:S511、对农药价格进行归一化处理,处理公式如下,其中,x为选定农药价格的归一化结果,v为农药每毫升单价,vmin是所有采集的农药中每毫升单价最小值,vmax为所采集农药中每毫升单价最大值;S512、对好评率进行归一化处理,处理公式如下,其中,l为选定农药的好评率归一化结果,s为选定农药的好评率,其为所有电商平台上同一农药的所有好评数量与销量的比值,smin为所有农药中好评率的最小值,smax为所有农药中好评率的最大值;S513、计算农药加权推荐度,计算公式如下,d=n*x+(1-n)*l,其中,n为提前设置好的在推荐度中农药价格的权重。与现有技术相比,本专利技术的优点主要体现在以下几个方面:本专利技术所提出的一种面向电商平台的农药信息采集方法,使用爬虫技术对指定的电商平台内的农药信息进行采集,通过对农药商品的价格和好评数量的归一化处理为判断农药产品的性价比提供了依据,方便了农民朋友的线上农药交易操作,满足了农民朋友买真药、买好药的需求。同时,本专利技术还提出了一种能够显著提高数据爬取效率的URL过滤方法,最大限度上缩短了方法整体的处理时间,提高了方法整体的处理效率。此外,本专利技术也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于计算机数据挖掘及信息处理领域内的其他相关技术方案中,具有十分广阔的应用前景。以下便结合实施例附图,对本专利技术的具体实施方式作进一步的详述,以使本专利技术技术方案更易于理解、掌握。附图说明图1为本专利技术的方法流程示意图;图2为本专利技术中二次过滤的方法流程示意图。具体实施方式本专利技术针对目前电商市场上仍然充斥着大量假冒、劣质的农药的现状,提出了一种基于爬虫的农药信息采集方法。具体如下。如图1所示,本专利技术揭示了一种面向电商平台的农药信息采集方法,包括如下步骤:S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序。S2、对爬虫程序所爬取的数据进行解析,然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,将过滤后的农药商品页面的URL存储在URL队列中。所述爬虫程序所爬取的数据包括农药品名、厂家、批准证号、单价、销量以及好评数量等。所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,具体包括:初始化URL过滤器中的URL列表,所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList。判断系统数据库总是否存在所需要爬取的农药商品页面的URL,若存在,则按重复次数对URL进行降序排序,以初始化VisitList,若不存在,则使用电商平台的索引页初始化VisitList。S3、将经过解析后的数据临时存储在系统缓存中,随后对农药商品页面的URL进行二次过滤。如图2所示,所述对农药商品页面的URL进行二次过滤,具体包括如下步骤:S31、对于经过S2中初步过滤后的农药商品页面的URL,在VisitList中查找所述URL是否存在;若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进本文档来自技高网...

【技术保护点】
1.一种面向电商平台的农药信息采集方法,其特征在于,包括如下步骤:S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序;S2、对爬虫程序所爬取的数据进行解析,然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,将过滤后的农药商品页面的URL存储在URL队列中;S3、将经过解析后的数据临时存储在系统缓存中,随后对农药商品页面的URL进行二次过滤;S4、以批准证号为唯一标志,将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中;S5、对系统数据库中的数据进行展示。

【技术特征摘要】
1.一种面向电商平台的农药信息采集方法,其特征在于,包括如下步骤:S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序;S2、对爬虫程序所爬取的数据进行解析,然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,将过滤后的农药商品页面的URL存储在URL队列中;S3、将经过解析后的数据临时存储在系统缓存中,随后对农药商品页面的URL进行二次过滤;S4、以批准证号为唯一标志,将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中;S5、对系统数据库中的数据进行展示。2.根据权利要求1所述的面向电商平台的农药信息采集方法,其特征在于,S2中所述爬虫程序所爬取的数据包括:农药品名、厂家、批准证号、单价、销量以及好评数量。3.根据权利要求1所述的面向电商平台的农药信息采集方法,其特征在于,S2中所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,具体包括:初始化URL过滤器中的URL列表,所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList;判断系统数据库总是否存在所需要爬取的农药商品页面的URL,若存在,则按重复次数对URL进行降序排序,以初始化VisitList,若不存在,则使用电商平台的索引页初始化VisitList。4.根据权利要求3所述的面向电商平台的农药信息采集方法,其特征在于,S3中所述对农药商品页面的URL进行二次过滤,具体包括:S31、对于经过S2中初步过滤后的农药商品页面的URL,在VisitList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程;...

【专利技术属性】
技术研发人员:蔡地孙知信宫婧赵学健孙哲
申请(专利权)人:南京邮电大学南京邮电大学盐城大数据研究院有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1