一种计算从网页爬取的餐饮外卖店铺数据销售额的方法技术

技术编号:20919775 阅读:45 留言:0更新日期:2019-04-20 10:22
本发明专利技术公开一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,涉及数据爬取及统计分析技术领域;采用采集数据中店铺配送费的众数作为店铺配送费,相较于采用配送费平均值、最小值计算店铺销售额,采用配送费众数是有优势:采用配送费平均值计算,由于在距离较远的商圈也会采集到某一店铺的信息,其配送费非常高,销售量非常小,但是会对该店铺的配送费平均值有很大的影响,因此配送费平均值计算,店铺销售额会偏大;采用配送费最小值计算,由于在相邻的商圈范围内也会有较大的销售量,因此基于配送费最小值计算,店铺销售额会偏小。而采用配送费众数计算,得出店铺销售额介于两者之间,既保持了数据统计的可操作性又提高了准确性。

A Method for Calculating Sales Data of Catering Takeaway Stores Crawled from Web Pages

The invention discloses a method for calculating the sales volume of catering takeaway stores data crawled from web pages, which involves the technical fields of data crawling and statistical analysis; adopting the mode of store distribution fee in the collected data as the distribution fee of stores, compared with using the average and minimum value of distribution fee to calculate the sales volume of stores, the mode of distribution fee has advantages: adopting the average value of distribution fee to calculate, because of the fact that the average value of distribution fee is used to calculate the sales volume Distribution fee is very high and sales volume is very small, but it will have a great impact on the average distribution fee of the shop, so the average distribution fee calculation, shop sales will be larger; using the minimum distribution fee calculation, because there will be a larger sales volume in the adjacent business circle, so based on distribution fee. Minimum calculation, shop sales will be small. By using the mode calculation of distribution fees, it is concluded that the sales volume of stores is between the two, which not only keeps the operability of data statistics, but also improves the accuracy.

【技术实现步骤摘要】
一种计算从网页爬取的餐饮外卖店铺数据销售额的方法
本专利技术公开一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,涉及数据爬取及统计分析

技术介绍
随着生活习惯和技术的进步,餐饮外卖市场近些年得到了迅速的发展,因此对于餐饮外卖行业的分析就显得十分重要,而其中销售数据的统计是其中的关键,但餐饮外卖数据有其统计上的难点,本专利技术提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采用了店铺配送费众数作为商品配送费来统计店铺销售额,既保持了数据统计的可操作性又提高了准确性。数据爬取采用网络爬虫技术,它是一个自动提取网页的程序,为搜索引擎从万维网上下载网页,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
技术实现思路
本专利技术针对现有技术的问题,提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,使获得的外卖店铺数据销售额更加准确,以便进一步分析外卖店铺的整体数据,为改进服务提供帮助。本专利技术提出的具体方案是:一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;利用商品价格、商品配送费及商品销售量计算商品销售额;基于店铺ID,利用店铺内商品销售额计算店铺销售额。所述的方法中店铺数据包括店铺ID数据、店铺名称数据、店铺地址数据及店铺配送费数据。所述的方法中商品数据包括所在店铺ID数据、商品ID数据、商品名称数据、商品价格数据、商品折扣价格数据及商品销售量数据。所述的方法中去掉采集的店铺数据及商品数据中的无效及空值数据,并对其中的异常数据进行处理。所述的方法中处理商品数据标签时,计算出餐饮外卖商品的商品折扣价格作为商品价格,商品销售量是指同一段时间内的商品销售量。所述的方法中利用公式商品价格与商品配送费之和乘以商品销售量,计算得到商品销售额。所述的方法中利用公式店铺内商品销售额的和,计算得到店铺销售额。所述的方法中具体步骤为:步骤1:采集店铺数据及商品数据信息,以外卖平台上划定的商圈为采集入口,采集商圈内的店铺数据以及店铺内的商品数据信息;步骤2:处理采集的店铺数据及商品数据,去掉采集数据中的无效、空值数据,并对其中的异常数据进行处理,分别给处理后商品数据和店铺数据附上标签,汇总出标签齐全的数据内容;步骤3:处理商品数据标签,使用采集的商品数据标签中的商品折扣价格计算出餐饮外卖商品的商品价格,餐饮外卖平台的累计一定天数的销售量作为商品销售量,并对商品数据基于商品ID进行去重;步骤4:处理店铺数据标签,将采集店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;步骤5:确定商品配送费,基于店铺ID标签,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;步骤6:计算商品销售额,公式为商品销售额=(商品价格+商品配送费)*商品销售量;步骤7:计算店铺销售额,公式为店铺销售额=∑店内商品销售额。本专利技术的有益之处是:本专利技术提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采用采集数据中店铺配送费的众数作为店铺配送费,相较于采用配送费平均值、最小值计算店铺销售额,采用配送费众数是有优势的,原因是:1)采用配送费平均值计算,由于在距离较远的商圈也会采集到某一店铺的信息,其配送费非常高,销售量非常小,但是会对该店铺的配送费平均值有很大的影响,因此配送费平均值计算,店铺销售额会偏大;2)采用配送费最小值计算,由于在相邻的商圈范围内也会有较大的销售量,因此基于配送费最小值计算,店铺销售额会偏小。而采用配送费众数计算,得出店铺销售额介于两者之间,既保持了数据统计的可操作性又提高了准确性。附图说明图1是本专利技术方流程示意图。具体实施方式本专利技术提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;利用商品价格、商品配送费及商品销售量计算商品销售额;基于店铺ID,利用店铺内商品销售额计算店铺销售额。下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。利用本专利技术方法对某一外卖平台的商圈外卖店铺进行销售额的计算,具体的步骤为:步骤1:采集店铺数据及商品数据信息,以外卖平台上划定的商圈为采集入口,进入商圈后,采集商圈内的店铺以及店铺内的商品数据信息,采集平台上展列的所有信息,可采集到的有效信息包括店铺数据信息和商品数据信息,店铺数据信息包括店铺ID、店铺名称、店铺地址、店铺配送费等,商品数据信息包括所在店铺ID、商品ID、商品名称、商品价格、商品折扣价格、商品销售量等;步骤2:处理采集的店铺数据及商品数据,去掉采集数据中的无效、空值数据等,并对其中的异常数据进行处理,分别给处理后商品数据和店铺数据附上标签,汇总出标签齐全的数据内容;步骤3:处理商品数据标签,计算出餐饮外卖商品的商品价格,本方法使用采集的商品数据标签中的商品折扣价格,计算商品销售量,比如餐饮外卖平台的商品销售量为近30天累计销售量,对商品数据基于商品ID进行去重;步骤4:处理店铺数据标签,以不同商圈为入口采集数据会发生同一家店铺被重复采集的情况,采集到的店铺配送费不唯一,采集店铺数据中店铺配送费的众数作为店铺配送费,确定好店铺配送费后,对店铺数据基于店铺ID进行去重;步骤5:确定商品配送费,基于店铺ID标签,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;步骤6:计算商品销售额,商品销售额=(商品价格+商品配送费)*商品销售量;步骤7:计算店铺销售额,店铺销售额=∑店内商品销售额。本专利技术使用了众数理论,众数是样本观测值在频数分布表中频数最多的那一组的组中值,是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。如数据2、、-1、2、1、3中,2出现了两次,是这组数据中的众数。而采用配送费众数计算,得出店铺销售额介于配送费平均值和配送费本文档来自技高网...

【技术保护点】
1.一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,其特征是采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;利用商品价格、商品配送费及商品销售量计算商品销售额;基于店铺ID,利用店铺内商品销售额计算店铺销售额。

【技术特征摘要】
1.一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,其特征是采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;利用商品价格、商品配送费及商品销售量计算商品销售额;基于店铺ID,利用店铺内商品销售额计算店铺销售额。2.根据权利要求1所述的方法,其特征是店铺数据包括店铺ID数据、店铺名称数据、店铺地址数据及店铺配送费数据。3.根据权利要求1或2所述的方法,其特征是商品数据包括所在店铺ID数据、商品ID数据、商品名称数据、商品价格数据、商品折扣价格数据及商品销售量数据。4.根据权利要求3所述的方法,其特征是去掉采集的店铺数据及商品数据中的无效及空值数据,并对其中的异常数据进行处理。5.根据权利要求4所述的方法,其特征是处理商品数据标签时,计算出餐饮外卖商品的商品折扣价格作为商品价格,商品销售量是指同一段时间内的商品销...

【专利技术属性】
技术研发人员:赵阳光
申请(专利权)人:山东浪潮云信息技术有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1