一种选品比价方法、计算机可读存储介质技术

技术编号:23100231 阅读:45 留言:0更新日期:2020-01-14 20:49
本发明专利技术提供了一种选品比价方法、计算机可读存储介质。所述方法包括商品信息数据采集过程、商品信息数据清洗过程、比较信息展示过程,并设置了独特的清洗规则,实现了相似商品的筛选,并实时更新比价结果。采用本发明专利技术,能直观、精确、自动的展示商品及类似商品的信息,还可以看查询商品的历史价格,了解历史价格走势,销量情况和评论情况,让采购人员或者电商对该商品有个更深入的了解,方便采购更好、更便宜的商品及更准确的制定商品价格。

A method of price comparison for selection and computer readable storage medium

【技术实现步骤摘要】
一种选品比价方法、计算机可读存储介质
:本专利技术涉及数据处理
,特别是涉及一种选品比价方法、计算机可读存储介质。
技术介绍
:消费者采购在选品的同时,一般会同时打开不同电商的网站,在每个网站输入相同商品名称,以方便比较价格。另外,随着电商的发展,市场上踊跃出很多大大小小的购物平台,如比较知名的淘宝,京东等;在大部分消费者看重价格的情况下,想在众多平台中脱颖而出则需要足够吸引消费者的东西,塑造较强的竞争力,商品的定价就显得尤为重要,电商需要尽可能的了解同类商品在别的平台的定价。目前,比价工作大都是人工进行,成本较高、操作繁琐,且容易遗漏。
技术实现思路
:为了提高比价效果、节省时间,本专利技术提供了一种选品比价方法、计算机可读存储介质。一种选品比价方法,应用于计算机设备,包括商品信息数据采集过程、商品信息数据清洗过程、比较信息展示过程;商品信息数据采集过程是采集欲要进行比价的商品的链接、解析其所在页面后并抽取有用信息放入数据库中进行保存;商品信息数据清洗过程是利用索引引擎对所采集到的信息建立索引,并获取同时满足相似度阈值及相似度排名阈值的要求的相似商品的数据;比较信息展示过程是根据商品信息数据清洗所获得的最终数据对应的源URL进行周期性的数据采集,实现对应商品相关信息的对比展示。进一步的,商品信息数据采集过程具体为:步骤一:将需要比价的商品的链接URL导入到待采集任务列表中;步骤二:加载待采集的商品的链接URL放入请求池中;步骤三:获取步骤二中对应请求并发送;步骤四:下载步骤二中所述链接URL对应页面,返回页面信息;步骤五:处理步骤四所述的页面并解析页面,抽取有用的信息放入列表中交由管道处理;步骤六:将列表中的数据存入数据库中;步骤七:重复执行步三至六,直到请求池中所有的请求处理完为止。进一步的,商品信息数据采集过程执行过程中,如果发现有新的链接,则继续将新链接的URL放入请求池中。进一步的,商品信息数据采集过程步骤五中采用xpath解析页面。进一步的,商品信息数据清洗过程具体为:步骤一:先在搜索服务器中建立相应的索引;步骤二:加载商品信息数据采集过程采集到的所有数据,写入搜索服务器中;步骤三:搜索服务器搜索按照需要搜索比价商品、,计算商品相似度,取出每个商品相似度评分的前N位相似度大于X的数据,对这些数据进行判断;N为相似度排名阈值;X为相似度阈值;步骤四:对于步骤三过滤出来的数据,与欲要进行比价的商品建立相应的绑定关系。进一步的,相似度排名阈值为5。进一步的,当利用elasticsearch搜索服务器里的匹配度算法对相似度进行计算时,相似度阈值为200。进一步的,所述比较信息展示过程中,对应商品相关信息包括价格、销量和/或评论数和/或价格波动趋势。进一步的,还包括计算比价结果并保存的步骤。一个或多个包含计算可执行指令的非易失性计算机可读存储介质,其特征在于,介质内存储有可执行指令,当可执行指令被一个或者多个处理器执行时,使得所述处理器执行上述的选品比价方法。本专利技术的有益效果为:采用本专利技术,能直观、精确、自动的展示商品及类似商品的信息,还可以看查询商品的历史价格,了解历史价格走势,销量情况和评论情况,让采购人员或者电商对该商品有更深入的了解,方便采购更好的选择更好的商品及更准确的制定商品价格,使平台的商品时刻保持着强大的优势,提升平台的竞争力,也能够使消费者买到更好的商品。具体实施方式:本专利技术的设计构思为:针对现有技术的不足,提出一种方法,该方法包括商品信息数据采集过程、商品信息数据清洗过程、比较信息展示过程,并设置了独特的清洗规则,实现了相似商品的筛选,并实时更新比价结果。下面对各个过程进行详细说明。一.商品数据采集过程数据采集过程的实现需要四大组件,分别为下载器(Downloader)、页面处理器(PageProcessor)、调度器(Scheduler)、管道(Pipeline)。前述的Downloader、PageProcesso、Scheduler、Pipeline含义与现有技术术语相同。所述下载器被配置为从互联网上下载页面。所述页面处理器被配置为用于解释页面,抽取有用的信息,以及发现新的链接。所述有用的信息主要包括商品的价格,销量,评论数等。发现新链接所采用的技术手段是人工去分析页面,编写解析程序及提取页面信息的脚本。所述调度器被配置为管理待采集的URL,以及一些去掉重复URL。所述管道被配置为负责抽取结果的处理,包括计算、持久化到文件、数据库等。商品信息数据采集过程如下:步骤一:将需要比价的商品的链接URL导入到待采集任务列表中;所述待采集列表专门用于存放链接URL。步骤二:加载待采集的商品的链接URL放入请求池中;步骤三:获取请求池中的请求并发送给下载器;特别的,所述请求是指步骤二中对应请求;步骤四:下载器下载页面,返回页面信息;步骤五:页面处理器处理页面,解析页面(本实施例采用xpath),抽取有用的信息放入列表中交由管道处理。步骤六:在管道中将列表中的数据存入数据库中,方便后面清洗;步骤七:重复执行步骤三至六,直到请求池中所有的请求处理完为止。到此,数据采集完毕。上述过程中如果发现有新的链接URL导入到待采集任务列表(这里其实是一个队列,满足FIFO原则),则继续将新链接的URL放入请求池中。二.商品信息数据清洗过程本实施例中,采用了搜索服务器elasticsearch(下文简称es)及N-gram分词算法进行数据清洗。该流程主要包括如下步骤:步骤一:先在搜索服务器中建立相应的索引,目前主要使用商品名称作为索引字段;步骤二:加载采集到的所有数据,写入搜索服务器中;步骤三:按照采提供的需要比价商品,通过搜索服务器搜索,取出每个商品相似度评分最高的前N位,对这些数据进行判断。N为相似度排名阈值,可以根据需要进行选取。本实施例设置为5,即前五名的商品最相似。相似度评分是搜索服务器里面的匹配度算法得出的分数。相似度评分的计算手段是:对于每个短语经过N-gram算法进行分词后在进行比较,每个词组匹配后有一个分值,经过累加后乘上一个系数得出最终的评分即为相似度评分,这个系数根据分词后词组的个数取不同的值,是内部定义的一个标准。本实施例中认为,相似度评分大于200的商品与想要的结果匹配度较高,因此会进一步在前N位中选择相似度大于200的数据,低于200的数据则被认为相似度较低,不会采用。步骤四:对于步骤三过滤出来的数据,进一步通过人工审核,审核过后得到最终的数据,与欲要进行比价的商品建立相应的绑定关系;人工审核是为了进一步确定商品的相似性,是一种优选方式。可以跳过本步骤,直接将步骤三所得数据本文档来自技高网...

【技术保护点】
1.一种选品比价方法,其特征在于,包括商品信息数据采集过程、商品信息数据清洗过程、比较信息展示过程;/n商品信息数据采集过程是采集欲要进行比价的商品的链接、解析其所在页面后并抽取有用信息放入数据库中进行保存;/n商品信息数据清洗过程是利用索引引擎对所采集到的信息建立索引,并获取同时满足相似度阈值及相似度排名阈值要求的相似商品的数据;/n比较信息展示过程是根据商品信息数据清洗所获得的最终数据对应的源URL进行周期性的数据采集,实现对应商品相关信息的对比展示。/n

【技术特征摘要】
1.一种选品比价方法,其特征在于,包括商品信息数据采集过程、商品信息数据清洗过程、比较信息展示过程;
商品信息数据采集过程是采集欲要进行比价的商品的链接、解析其所在页面后并抽取有用信息放入数据库中进行保存;
商品信息数据清洗过程是利用索引引擎对所采集到的信息建立索引,并获取同时满足相似度阈值及相似度排名阈值要求的相似商品的数据;
比较信息展示过程是根据商品信息数据清洗所获得的最终数据对应的源URL进行周期性的数据采集,实现对应商品相关信息的对比展示。


2.如权利要求1所述的选品比价方法,其特征在于,商品信息数据采集过程具体为:
步骤一:将需要比价的商品的链接URL导入到待采集任务列表中;
步骤二:加载待采集的商品的链接URL放入请求池中;
步骤三:获取步骤二中对应请求并发送;
步骤四:下载步骤二中所述链接URL对应页面,返回页面信息;
步骤五:处理步骤四所述的页面并解析页面,抽取有用的信息放入列表中交由管道处理;
步骤六:将列表中的数据存入数据库中;
步骤七:重复执行步三至六,直到请求池中所有的请求处理完为止。


3.如权利要求2所述的选品比价方法,其特征在于,商品信息数据采集过程执行过程中,如果发现有新的链接,则继续将新链接的URL放入请求池中。


4.如权利要求2所述的选品比价方法,其特征在于,商品信息数据采集过程步骤...

【专利技术属性】
技术研发人员:赵晨方前肖建涛
申请(专利权)人:杭州洋驼网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1