面向电商平台的农药信息采集方法技术

技术编号：21971506 阅读：43 留言：0更新日期：2019-08-28 01:29

本发明专利技术揭示了一种面向电商平台的农药信息采集方法，包括如下步骤：S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列，启动爬虫程序；S2、对所爬取的数据进行解析，然后使用URL过滤算法对URL进行初步过滤，将过滤后的URL存储在URL队列中；S3、将经过解析后的数据临时存储在系统缓存中，随后对URL进行二次过滤；S4、将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中，并将其存储在系统数据库中；S5、对系统数据库中的数据进行展示。本发明专利技术使用爬虫技术对指定的电商平台内的农药信息进行采集，通过归一化处理为判断农药产品的性价比提供了依据，方便了农民朋友的线上农药交易操作。

Pesticide Information Collection Method for E-commerce Platform

全部详细技术资料下载

【技术实现步骤摘要】
面向电商平台的农药信息采集方法
本专利技术涉及一种信息采集方法，具体涉及一种运用爬虫技术实现的面向电商平台的农药信息采集方法，属于计算机数据挖掘以及信息处理

技术介绍
随着互联网技术的迅猛发展和广泛普及，利用互联网调研来获取农业大数据也逐渐成为大势所趋。农药作为农业生产过程中不可缺少的要素，在农业生产中发挥着重要的作用。在电商平台上购买农药无疑会更加方便实惠、并且选择更多，同时，农民朋友也有通过网络了解一些使用效果好、价格实惠的农药的实际需求。但是目前，电商市场上仍然充斥着大量假冒、劣质的农药，由于农药的特殊性和重要性，一旦选用了这些劣质农药，将会给给农民用户带来不可挽回的巨大损失。也正是由于这一原因，目前关于农药的线上贸易进程发展缓慢。因此，如何满足农民朋友在线上对买真药、买好药的需要是全社会都需要正视的一个问题。WebMagic是一种简单而灵活的Java爬虫框架。它具有简单的API(ApplicationProgrammingInterface,应用程序编程接口)，学习成本低。同时，它还具备模块化的功能结构，可以轻松扩展。WebMagic可提供多线程和分布式支持，基于这一框架，技术人员能够快速开发出高效且可维护的爬虫。也正是由于上述技术条件，如何在现有技术的基础上提出一种运用爬虫技术实现的面向电商平台的农药信息采集方法，为农民朋友的线上农药交易提供便利，满足农民朋友买真药、买好药的需求，也就成为了本领域内技术人员共同的研究目标。
技术实现思路
鉴于现有技术存在上述缺陷，本专利技术的目的是提出一种面向电商平台的农药信息采集方法，包括如下步骤：S1、...

【技术保护点】
1.一种面向电商平台的农药信息采集方法，其特征在于，包括如下步骤：S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列，启动爬虫程序；S2、对爬虫程序所爬取的数据进行解析，然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤，将过滤后的农药商品页面的URL存储在URL队列中；S3、将经过解析后的数据临时存储在系统缓存中，随后对农药商品页面的URL进行二次过滤；S4、以批准证号为唯一标志，将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中，并将其存储在系统数据库中；S5、对系统数据库中的数据进行展示。

【技术特征摘要】
1.一种面向电商平台的农药信息采集方法，其特征在于，包括如下步骤：S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列，启动爬虫程序；S2、对爬虫程序所爬取的数据进行解析，然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤，将过滤后的农药商品页面的URL存储在URL队列中；S3、将经过解析后的数据临时存储在系统缓存中，随后对农药商品页面的URL进行二次过滤；S4、以批准证号为唯一标志，将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中，并将其存储在系统数据库中；S5、对系统数据库中的数据进行展示。2.根据权利要求1所述的面向电商平台的农药信息采集方法，其特征在于，S2中所述爬虫程序所爬取的数据包括：农药品名、厂家、批准证号、单价、销量以及好评数量。3.根据权利要求1所述的面向电商平台的农药信息采集方法，其特征在于，S2中所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤，具体包括：初始化URL过滤器中的URL列表，所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList；判断系统数据库总是否存在所需要爬取的农药商品页面的URL，若存在，则按重复次数对URL进行降序排序，以初始化VisitList，若不存在，则使用电商平台的索引页初始化VisitList。4.根据权利要求3所述的面向电商平台的农药信息采集方法，其特征在于，S3中所述对农药商品页面的URL进行二次过滤，具体包括：S31、对于经过S2中初步过滤后的农药商品页面的URL，在VisitList中查找所述URL是否存在，若存在，则标记相关URL并对其重复数量进行加一，随后流程结束，若不存在，则按序进入下一流程；...

【专利技术属性】
技术研发人员：蔡地，孙知信，宫婧，赵学健，孙哲，
申请(专利权)人：南京邮电大学，南京邮电大学盐城大数据研究院有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人