一种自动比价方法及其机器人装置制造方法及图纸

技术编号:15792773 阅读:297 留言:0更新日期:2017-07-10 01:58
本发明专利技术公开了一种自动比价方法及其机器人装置,至少包括以下步骤:获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;存储抽取的标题以及价格;根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。

【技术实现步骤摘要】
一种自动比价方法及其机器人装置
本专利技术涉及信息检索
,尤其涉及一种自动比价方法及其机器人装置。
技术介绍
在互联网的网购时代,如天猫,淘宝,京东,国美,苏宁等等网店纷纷通过烧钱低价,优惠券,好友红包分享的方式大打价格战,吸引更多的用户进行购物消费。而用户在使用这些网上购物资源的时候,常常很难对价格进行比对,通常只能是分别到各大网站去检索相同的产品,而这个过程是很浪费时间的,并且也常常会因为耗费了检索的时间,造成同产品中价格最便宜的会出现售罄的情况,使用户即浪费了时间也没有买到想要的产品,因此急需一种能够对相同或者类似产品进行价格统一把握的技术来解决有技术中存在的问题。
技术实现思路
本专利技术目的是提供一种自动比价方法及其机器人装置,可以解决现有技术中无法对同一或者类似产品价格统一把握的问题。本专利技术解决技术问题采用如下技术方案:一种自动比价方法,其特征在于,至少包括以下步骤:获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;存储抽取的标题以及价格;根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。其中,使用开源工具nutch进行相关网页抓取。其中,使用开源工具BoilerPipe进行网页去噪。其中,所述抽取的标题以及价格存储在数据库Redis中。本专利技术还一种自动比价机器人装置,至少包括:购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;价格信息存储单元,用于存储抽取的标题以及价格;价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。本专利技术具有如下有益效果:用户可以统一把握相同或者类似商品的价格,选择最优的网站进行购买,获得最佳的选择。附图说明图1为本专利技术的自动比价方法的简易流程图;图2为本专利技术的自动比价的机器人装置的结构框图。具体实施方式下面结合实施例及附图对本专利技术的技术方案作进一步阐述。一种自动比价方法,至少包括以下步骤:获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;存储抽取的标题以及价格;根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。本专利技术的比价方法可以对各种产品进行网络比价,基于原理相同,在本实施例中,仅以针对图书类产品进行说明,因此在本实施例中提供一种能针对图书进行自动抓取和进行自动比价的网络爬虫机器人。以为两个购物网站京东和天猫为例,本专利技术的方法首先使用开源工具nutch对京东和天猫的图书类别进行抓取网页,然后进行网页去噪,抽取出图书名和价格名出来,使用数据库Redis进行存储,对同一本书,给出价格上的对比,从而帮助用户做出更好的选择。参考图1所示,以及以下步骤:1、采集购物网页,本实施例中为天猫和京东。指定初始种子链接和抓取深度,即检索例如“lonelyplanetChina”所有卖家的相同图书,使用开源工具nutch抓取相关网页,其中Nutch是一个开源的搜索引擎,它提供了我们运行自己搜索引擎的全部工具,包括全文搜索和web爬虫,鉴于该搜索引擎为现有的工具因此具体技术细节不再进行赘述;2、使用正则表达式抽取导航栏链接,使用开源工具BoilerPipe进行网页去噪的处理部分,根据正则表达式,抽取出标题和价格,也就是该书的标题和价格。BoilerPipe是一个开源的Java类库,能从html中将广告和其他的附加信息剔除;3、将抽取的标题和价格存储到数据库redis之中,方便用户进行查询。Redis是一个开源的,key-value的高性能的数据库存储。4、在本实施例中,使用html5进行用户的页面的查询,给出对比后的价格。在本专利技术中,还提供一种自动比价机器人装置,参考图2所示,至少包括:购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;价格信息存储单元,用于存储抽取的标题以及价格;价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。基于本专利技术的自动比价机器人装置应用上述方法进行价格比对,因此在此不再进行赘述。采用本专利技术的方案,用户可以统一把握相同或者类似商品的价格,选择最优的网站进行购买,获得最佳的选择。以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。最后应说明的是:以上实施例仅用以说明本专利技术的技术方案,而非对其限制;尽管参照前述实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本专利技术各实施例技术方案的精神和范围。本文档来自技高网...
一种自动比价方法及其机器人装置

【技术保护点】
一种自动比价方法,其特征在于,至少包括以下步骤:获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;存储抽取的标题以及价格;根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。

【技术特征摘要】
1.一种自动比价方法,其特征在于,至少包括以下步骤:获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;存储抽取的标题以及价格;根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。2.根据权利要求1所述的自动比价方法,其特征在于,使用开源工具nutch进行相关网页抓取。3.根据权利要求1所述的自动比价方法,其特征在于,使用开源工具BoilerPipe进行网...

【专利技术属性】
技术研发人员:纪江霖吴勇谋
申请(专利权)人:深圳前海勇艺达机器人有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1