【技术实现步骤摘要】
本专利技术涉及网页搜索
,特别是一种用于抓取网络商城中网页的爬虫算法。
技术介绍
网络商城是以互联网为运营载体,依托互联网资源,利用电子商务的各种手段,达成从买到卖的过程的虚拟商店,从而减少中间环节,消除运输成本和代理中间的差价,造就对普通消费和加大市场流通带来巨大的发展空间。网络商城24小时都可以进行商品的浏览与购买,工作时间可以随时与客服进行交流,解决购物中遇到的困难;其信息量大,能够让顾客更多的了解,增加了选择的空间; 其客户无限,全球的任何人都可以通过Internet访问,不受空间限制;其服务优质,不但可以完成普通商店可以进行的所有交易,同时它还可以通过多媒体技术为用户提供更加全面的商品信息;其成本低廉,由于省去了店面费用,所以总体的成本降低很多,所以表现在消费品上的价格也会相对传统店面便宜很多。同时因为是大批量取货后分销的形式,所以价格优势比较明显。网络商城虽然有其优势的地方,但是也有其劣势。网上商店对货物的描述很具有迷惑性,主要在于顾客无法直接看到和触摸到商品,全凭店主的描述来购物。顾客无法判断货物是否从正规渠道而来,或者是否为正品。若为仿制品 ...
【技术保护点】
一种用于抓取网络商城中网页的爬虫算法,其特征在于:包括以下步骤:步骤1:设置抓取的宽度、深度以及总数,所述宽度表示不相关页面链接允许访问的数目,所述深度表示还可以沿着链接继续往前访问的深度,所述总数表示访问网页总数上限值S;输入初始链接;步骤2:建立url队列,所述url队列用于存储要爬取的初始链接,将url种子集添加到所述url队列中;步骤3:若访问页面数小于访问网页总数上限值S,或者url队列的长度不为零,即url队列不为空,则根据所述初始链接下载对应的页面,否则结束;步骤4:抽取被新爬取到的链接到list队列中,并计算页面与主题的相关度,然后保存下载到的页面;所述li ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。