The invention discloses a method for calculating the sales volume of catering takeaway stores data crawled from web pages, which involves the technical fields of data crawling and statistical analysis; adopting the mode of store distribution fee in the collected data as the distribution fee of stores, compared with using the average and minimum value of distribution fee to calculate the sales volume of stores, the mode of distribution fee has advantages: adopting the average value of distribution fee to calculate, because of the fact that the average value of distribution fee is used to calculate the sales volume Distribution fee is very high and sales volume is very small, but it will have a great impact on the average distribution fee of the shop, so the average distribution fee calculation, shop sales will be larger; using the minimum distribution fee calculation, because there will be a larger sales volume in the adjacent business circle, so based on distribution fee. Minimum calculation, shop sales will be small. By using the mode calculation of distribution fees, it is concluded that the sales volume of stores is between the two, which not only keeps the operability of data statistics, but also improves the accuracy.
【技术实现步骤摘要】
一种计算从网页爬取的餐饮外卖店铺数据销售额的方法
本专利技术公开一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,涉及数据爬取及统计分析
技术介绍
随着生活习惯和技术的进步,餐饮外卖市场近些年得到了迅速的发展,因此对于餐饮外卖行业的分析就显得十分重要,而其中销售数据的统计是其中的关键,但餐饮外卖数据有其统计上的难点,本专利技术提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采用了店铺配送费众数作为商品配送费来统计店铺销售额,既保持了数据统计的可操作性又提高了准确性。数据爬取采用网络爬虫技术,它是一个自动提取网页的程序,为搜索引擎从万维网上下载网页,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
技术实现思路
本专利技术针对现有技术的问题,提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,使获得的外卖店铺数据销售额更加准确,以便进一步分析外卖店铺的整体数据,为改进服务提供帮助。本专利技术提出的具体方案是:一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采集店铺数据及商品数据信息,处理采集的店 ...
【技术保护点】
1.一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,其特征是采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;利用商品价格、商品配送费及商品销售量计算商品销售额;基于店铺ID,利用店铺内商品销售额计算店铺销售额。
【技术特征摘要】
1.一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,其特征是采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;利用商品价格、商品配送费及商品销售量计算商品销售额;基于店铺ID,利用店铺内商品销售额计算店铺销售额。2.根据权利要求1所述的方法,其特征是店铺数据包括店铺ID数据、店铺名称数据、店铺地址数据及店铺配送费数据。3.根据权利要求1或2所述的方法,其特征是商品数据包括所在店铺ID数据、商品ID数据、商品名称数据、商品价格数据、商品折扣价格数据及商品销售量数据。4.根据权利要求3所述的方法,其特征是去掉采集的店铺数据及商品数据中的无效及空值数据,并对其中的异常数据进行处理。5.根据权利要求4所述的方法,其特征是处理商品数据标签时,计算出餐饮外卖商品的商品折扣价格作为商品价格,商品销售量是指同一段时间内的商品销...
【专利技术属性】
技术研发人员:赵阳光,
申请(专利权)人:山东浪潮云信息技术有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。