The invention discloses a method and a device for crawling the class information of an electric business website keyword, relating to the field of Internet technology, and the main purpose of the invention is to improve the efficiency of the class information of the electricity supplier website. The main technical scheme of the invention is: according to the search URL business website information, crawling category information structure keywords electricity supplier website; search URL access structure of the electricity supplier website, web page information to obtain the corresponding URL; the web page information is analyzed and described the category information website keywords from the page, get website keywords category information. The invention is mainly used for climbing the information of the keyword category of the electricity supplier website.
【技术实现步骤摘要】
爬取电商网站关键词品类信息的方法及装置
本专利技术涉及互联网
,尤其涉及一种爬取电商网站关键词品类信息的方法及装置。
技术介绍
关键词分类信息是一项十分重要的信息。尤其针对电商网站,针对用户的一个搜索关键词,正确的给出关键词所属的品类,对于电商网站以及对于搜索引擎营销都有十分重要的意义。其中,该处的品类只针对电商,其是指依据商品的属性,将商品划分为若干的类别,且根据不同的维度可以进行多级品类。网络爬虫是一项互联网中十分通用,普遍存在技术。许多公司,个人都会通过网络爬虫来批量的、大规模的爬取万维网上的信息。通用的网络爬虫,其爬取信息的原理一般为,其维护一组统一资源定位符(UniformResourceLocator,URL)列表,首先在列表中添加一个最初的URL,然后遍历URL列表中的每一个URL,获取URL对应的页面,然后提取页面中的URL,更新到URL列表中。目前,在爬取电商网站关键词品类信息时,通常使用的就是通用的网络爬虫。由于电商网站的商品信息繁多,其不同商品对应不同的页面,故要获取不同关键字对应商品的品类信息,就需要反复的去从新爬取的网页提取网页的U ...
【技术保护点】
一种爬取电商网站关键词品类信息的方法,其特征在于,包括:根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索统一资源定位符URL;访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息;对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。
【技术特征摘要】
1.一种爬取电商网站关键词品类信息的方法,其特征在于,包括:根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索统一资源定位符URL;访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息;对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。2.根据权利要求1所述的方法,其特征在于,所述电商网站信息包括电商网站的域名;根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索URL包括:根据电商的域名信息、爬取品类信息的关键词构造如下形式的电商网站的搜索URL:http://search.XXX.com/Search?keyword=YYY其中,XXX是电商网站的域名,YYY是指具体的爬取品类信息的关键词。3.根据权利要求1或2所述的方法,其特征在于,访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。4.根据权利要求3所述的方法,其特征在于,所述批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:通过多线程同时并发批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。5.根据权利要求4所述的方法,其特征在于,所述页面信息为超文本标记语言HTML代码的形式的页面信息。6.根据权利要求5所述的方法,其特征在于,对所述...
【专利技术属性】
技术研发人员:郭秦龙,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。