一种网络购物中基于图片的产品曝光率算法及系统技术方案

技术编号:12417466 阅读:58 留言:0更新日期:2015-12-02 12:09
一种网络购物中基于图片的产品曝光率算法,提供购物网站产品图片信息的URL提取挖掘及统计方法,再基于图片得到产品曝光率:步骤一:从web访问日志等相关数据源将数据抽取出来,去除掉其中的噪音异常数据,保留用户访问数据;步骤二:提取web访问日志中的产品图片访问信息:步骤三:确定产品图片的解析规则,由于在网站首页、推荐页面以及产品详情页中,大部分的产品都伴随着产品图片出现在网站中;步骤四:不附带图片的产品曝光数据处理,由于网站中可能存在少数的产品信息不附带产品图片,而只包含文字链接,因此对这种情况进行处理方式为:在该类文字链接埋点,并在web访问日志中记录;步骤五:曝光率统计。

【技术实现步骤摘要】

本专利技术涉及网站分析领域,具体而言,涉及一种基于图片的产品曝光率算法及系 统。 二、
技术介绍
随着互联网的迅速发展,网上购物已经成为一种流行的购物方式,而如何对与产 品相关的大量数据进行有效分析,并提供有价值的信息就显得至关重要。CN201510223970 一种基于图像的搜索购物方法,首先用户从终端上传需要搜索的商品图片至服务器,在服 务器端对上传的商品图片进行特征分类,提取图像特征值,使用得到的图像特征值在商品 图片索引文件中进行搜索;继而服务器根据相似商品的搜索结果;CN201210245148互联网 购物导航系统,包括中央服务器端、图片搜索引擎、和客户端,所述中央服务器端与图片搜 索引擎双向电连接,所述图片搜索引擎与所述客户端双向电连接,所述中央服务器端包括 计算交互服务模块、数据库服务模块。但未涉及产品的曝光数据分析,其实,产品的曝光数 据分析就是网络购物的重要内容。 对于购物网站的产品而言,产品的曝光率指该产品在一定时间内被曝光的次数。 通常而言,产品的曝光数据对于业务部门研究产品的销售情况、制定下一步的经营策略等, 具有较高的参考价值。 网站的访问日志作为产品曝光率计算方法的主要基础数据来源,记录了访客的 IP、访问时间、COOKIE、REFERER (上一次访问的页面)、REQUEST (访问的页面)等信息。其 中,REFERER和REQUEST是统计产品曝光信息的最主要的信息。 访问日志中记录的REFERER和REQUEST都是URL地址的形式,产品的相关信息,比 如产品图片URL,文字链接,产品详情页等,会被记录在REQUEST中。 例如,当产品在网站中曝光了一次,则会有相应的记录写入到访问日志中。 当前的产品曝光率计算方法往往较为复杂,主要根据用户的浏览信息得到的访问 日志以及其他相关数据,进行深入的统计分析。涉及到产品文字链接,网页url,图片url等 各种信息的处理统计。 三、
技术实现思路
专利技术目的:本专利技术提供一种基于图片的产品曝光率算法及系统,解决目前在大数 据环境下如何利用产品图片信息,简化产品曝光率的计算问题。通过统计产品图片的曝光 数据,来计算产品的曝光率。 技术方案:本专利技术采用的技术方案为:一种网络购物中基于图片的产品曝光率算 法,其特征在于: 提供购物网站产品图片信息的URL提取挖掘及统计方法,再基于图片得到产品曝 光率,包括如下步骤: 步骤一:从web访问日志等相关数据源将数据抽取出来,去除掉其中的噪音异常 数据,保留用户访问数据; 步骤二:提取web访问日志中的产品图片访问信息: 2-1)首先,判断REQUEST中的记录是否以"· jpg"、". jpeg"等图片格式结尾,去除 掉非图片访问数据; 2-2)其次,由于网站的访问日志中的图片信息,不仅包含了产品图片信息,也包含 了其他如广告、专题等图片的信息;在统计产品的曝光率之前,需要对非产品图片数据进行 过滤; 2-2-1)过滤方法为:根据网站开发部门提供的产品对应图片URL规则,将REQUEST 符合该规则的数据保留,不符合的过滤掉; 如,对于网站胃w. xvz.cn而言,REQUEST中满足以下规则之一的为产品图片URL : · GET/p/image/cache/home/ · GET/p/image/cache/prod_big/ # GET/prod/ # GET/p/prodpic. do ? xcase = showPic 以上规则用于并满足绝大多数的网站。 步骤三:确定产品图片的解析规则,由于在网站首页、推荐页面以及产品详情页 中,大部分的产品都伴随着产品图片出现在网站中;因此,在统计产品曝光率时,统计产品 图片的曝光数据即可; 在统计产品图片的曝光数据之前,必须寻找产品图片与产品id之间的对应关系; 对于产品图片,根据其URL的特点,可分为以下三种: 1)规则图片,指的是其URL地址中包含产品id,可以直接提取; 例如新一站网页中某产品图片的URL地址为http://www. xyz. cn/p/imaRes/ prod big/1009 I I. ipg,可以直接从中提取该图片对应的产品id为1009,该id即为数据 库中对应的产品id字段。 2)加密图片,指的是不能直接通过其URL地址得到对应产品的id,但可以通过网 站开发部门提供的解密规则解析出产品id ; 例如,新一站网页中某产品图片的URL地址为http://www. xyz. cn/prod/ l〇R〇ph6sdqbt. ipeg,可以先提取字符串ph6glqbt,再通过网站开发部门提供解密算法将字 符串ph6glqbt转化为产品的id,即1088。以java开发环境为例,产品的加解密算法通常 以jar包的形式封装,只需调用该包的解密方法即可。 3)其他不规则图片,指的是URL命名没有规则的图片。对于该类图片既不能直接 通过其URL图片得到产品id,也不能通过加密规则得到产品id。对于一个购物网站而言, 产品图片的命名都是有规则的,一般不会出现这种情况。若确实存在该种情况,则需要对该 类图片进行特殊处理。处理方式如下:配置异常图片的URL表,包含异常图片URL以及产品 ID字段,当有新的异常图片时,只需对该表进行更新即可。 步骤四:不附带图片的产品曝光数据处理,由于网站中可能存在少数的产品信息 不附带产品图片,而只包含文字链接,因此对这种情况进行特殊处理。处理方式为:在该类 文字链接埋点,并在web访问日志中记录。 步骤五:曝光率统计,用户浏览产品网页的行为通常保存在web访问日志里面, 要统计产品的曝光率,必须每天该网站的web访问日志进行解析。由于数据量较大,采取 hadoop进行解析,并将结果导入相应的(oracle)数据库中。 统计算法步骤: 5-1)取每行数据,若REQUEST满足步骤二中的规则,则保留,否则过滤; 5-2)提取日期、REQUEST字段,利用产品解析规则从REQUEST中得到产品ID ;-条 含有产品id的访问记录,表示该产品被曝光一次。 5-3)按日期,统计每个产品的曝光率。 本专利技术的有益效果:由于在网站首页、推荐页面以及产品详情页中,大部分的产品 都伴随着产品图片出现在网站中。因此,在统计产品曝光率时,统计产品图片的曝光数据即 可。本专利技术基于产品图片的简单曝光率计算方法,简化曝光率的计算方式,满足业务部门的 分析需求。 四、【附图说明】 图1是本专利技术实施例中的产品图片曝光率计算的流程示意图。 图2是本专利技术实例中网站数据采取hadoop进行解析的流程图。 五、【具体实施方式】 以下结合附图和具体实施例对本专利技术作进一步详细说明。 在本专利技术中,通过对网站访问日志进行一系列处理,最终利用产品图片信息得到 产品的曝光率数据,帮助网站不断进行优化。 参阅图1所示,本专利技术实施例的数据处理流程,具体步骤为: 步骤1 :从业务系统、文本等相关数据源将数据抽取出来,去除噪音异常数据,只 需保留用户访问相关数据。其中,需清洗的数据包括爬当前第1页1 2 本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105117448.html" title="一种网络购物中基于图片的产品曝光率算法及系统原文来自X技术">网络购物中基于图片的产品曝光率算法及系统</a>

【技术保护点】
一种网络购物中基于图片的产品曝光率算法,其特征在于:提供购物网站产品图片信息的URL提取挖掘及统计方法,再基于图片得到产品曝光率,包括如下步骤:步骤一:从web访问日志等相关数据源将数据抽取出来,去除掉其中的噪音异常数据,保留用户访问数据;步骤二:提取web访问日志中的产品图片访问信息:2‑1)首先,判断REQUEST中的记录是否以“.jpg”、“.jpeg”等图片格式结尾,去除掉非图片访问数据;2‑2)其次,由于网站的访问日志中的图片信息,不仅包含了产品图片信息,也包含了其他如广告、专题等图片的信息;在统计产品的曝光率之前,需要对非产品图片数据进行过滤;2‑2‑1)过滤方法为:根据网站开发部门提供的产品对应图片URL规则,将REQUEST符合该规则的数据保留,不符合的过滤掉;步骤三:确定产品图片的解析规则,由于在网站首页、推荐页面以及产品详情页中,大部分的产品都伴随着产品图片出现在网站中;因此,在统计产品曝光率时,统计产品图片的曝光数据即可;在统计产品图片的曝光数据之前,必须寻找产品图片与产品id之间的对应关系;对于产品图片,根据其URL的特点,分为以下三种:1)规则图片,指的是其URL地址中包含产品id,能直接提取;2)加密图片,指的是不能直接通过其URL地址得到对应产品的id,但可以通过网站开发部门提供的解密规则解析出产品id;3)其他不规则图片,指的是URL命名没有规则的图片;处理方式如下:配置异常图片的URL表,包含异常图片URL以及产品ID字段,当有新的异常图片时,只需对该表进行更新;步骤四:不附带图片的产品曝光数据处理,由于网站中可能存在少数的产品信息不附带产品图片,而只包含文字链接,因此对这种情况进行处理方式为:在该类文字链接埋点,并在web访问日志中记录;步骤五:曝光率统计,用户浏览产品网页的行为通常保存在web访问日志里面,要统计产品的曝光率,必须每天对该网站的web访问日志进行解析:采取hadoop进行解析,并将结果导入相应的数据库中。...

【技术特征摘要】

【专利技术属性】
技术研发人员:徐林龙
申请(专利权)人:新一站保险代理有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1