一种通用的关联不同电商网站单品的方法技术

技术编号:12266909 阅读:101 留言:0更新日期:2015-10-31 13:51
本发明专利技术属于电子商务技术领域,提供了一种通用的关联不同电商网站单品的方法,包括:步骤一,提取商品标识;步骤二,从不同网站的商品单品页上获取商品标识的键值对数据;步骤三,对步骤一中获得的商品标识进行描述分类;对于从步骤一中获得的每一个itemID,都把它的描述信息分成页面标题和属性列表两个部分;步骤四,将每一个商品标识与其它站点的商品标识进行匹配,筛选出其它站点内与该商品标识相似的itemID。本发明专利技术提高了不同站点间商品的匹配度,匹配更加快速,大大提高有购买意图的用户数量,提高商业价值。

【技术实现步骤摘要】

本专利技术属于电子商务
,特别涉及网站中一种通用的关联不同电商网站 单品的方法。
技术介绍
从阿里巴巴成功上市可以看到,电商已经被证明是一个有很高价值的领域。同时, 从另一个侧面来看,电商网站访问的流量中还埋藏着巨大的商业价值:一个用户浏览的网 页往往代表了用户的购买意图。而现在的再次行销(Remarketing)的商业逻辑只能覆盖那 些来过自己网站的用户,无法覆盖其他网站的用户,而自己的网站只是有购买意图的用户 的极小的一部分。 因此,电子商务
急需一种能够覆盖不同站点、通用的关联不同电商网站 单品的方法,提高了不同站点间商品的匹配度,匹配更加快速,大大提高有购买意图的用户 数量,提高商业价值。
技术实现思路
本专利技术提供了,对于任意给定的电商网 站的单品页,关联到其他网站的相同或者非常相似的单品页。这样,用户在非目标广告主网 站访问了一款商品后,就可以推送目标广告网站的同款商品广告,从而实现了再次行销的 免代码部署,技术方案如下: ,包括如下步骤: 步骤一,提取商品标识; 步骤二,从不同网站的商品单品页上获取商品标识的键值对数据; 步骤三,对步骤一中获得的商品标识进行描述分类; 对于从步骤一中获得的每一个itemID,都把它的描述信息分成页面标题和属性列表两 个部分; 步骤四,将每一个商品标识与其它站点的商品标识进行匹配,筛选出其它站点内与该 商品标识相似的itemID ; 首先,在步骤三的基础上,为每一个itemID的页面标题和属性列表建立索引; 进一步地,设定一个商品标识与其它站点的商品标识匹配相似度的阈值为P ; 进一步地,在索引中搜索,将一个商品标识与其它站点的商品标识进行匹配,得到相似 度值,当相似度大于阈值P时,留下此站点的itemID,否则滤除溜下itemID的数量为大于 等于0的正整数。 优选的,在上述中,步骤四中采用的索 引搜索方式为BM25算法,具体步骤为: 首先,将步骤三中的属性列表的每个属性组装成一个待搜索的Query (查询)项; 进一步地,采用BM25算法计算搜索相关性平分,BM25算法是对Query进行语素解析, 生成语素各;然后,对于每个搜索结果D,计算每个语素系与D的相关性得分,最后,将I相对 于D的相关性得分进行加权求和,从而得到Query与D的相关性平分; 具体公式如下:其中,β Λ表示Query与D的搜索相关性平分,S 滿)表示语素^与文档d 的相关性得分;Q表示Query项,%表示Q解析之后的一个语素,1表示一个搜索结果文档,^ 表示一个词与一个文档相关性的权重,即语素盔的权重,采用Pi1公式计算:其中,#表示索引中的全部文档数,n( if t〕表示包含了%的文档数; 根据公式可以看出,对于给定的文档集合,包含了兔的文档数越多,%的权重则越 低;也就是说,当很多文档都包含了A时,%的区分度就不高,因此使用资:来判断相关性时的 重要度就较低;其中,尤V先、砂/调节因子,通常根据经验设置,(为感在冲的出现频率,此为^ 在Query中的出现频率,为文档〇的长度,aKgi//为所有文档的平均长度,这里名,々2就 是我们要调节的属性重要性系数; 从A的定义中可以看出,参数A的作用是调整文档长度对相关性影响的大小;A越大, 文档长度对相关性得分的影响越大,反之越小;而文档的相对长度越长,4直将越大,则相 关性得分会越小;这可以理解为,当文档较长时,包含^的机会越大,因此,同等/;的情况 下,长文档与%的相关性应该比短文档与^的相关性弱; 将求出的巧和IT :議代入BM25算法公式中,求出搜索相关性平分(β Λ ; 进一步地,将搜索相关性平分(β 〇0与阈值P进行比较,由于有些itemID是无 法匹配的,在迭代计算中逐步剔除搜索相关性平分远远小于阈值P的点,最终筛选出其它 站点内与该商品标识相似的itemID。 优选的,在上述中,步骤一中提取商品 标识的具体步骤为:通过每个站点的统一资源定位符url规则提取该url所对应的商品标 识 itemIDo 优选的,在上述中,步骤二中从不同网 站的商品单品页上获取商品标识的键值对数据的具体步骤为: 采用cssselect规则从不同网站上去爬取商品单品页上顾客需要的键值对信息;键值 对信息包含商品的url地址、页面标题、产品名称、品牌、型号等,即对于每一个itemID,获 取到了描述它的不同维度的信息。 优选的,在上述中,步骤三中,页面标题 是商家编辑的对商品的概要描述,而属性列表是这个商品的细节信息描述,包括:商品名 称、品牌、型号、包装和重量。 本专利技术的有益效果: 1、本专利技术的索引可以动态添加,对于电商网站新增的itemID,只需要添加到之前的索 引中即可,动态支持新的itemID匹配。 2、本专利技术系数权重的搜索过程只需要在初始数据集有一定规模后一次计算即可 确定,以后每次新增了 itemID后无需重复计算,匹配更加快速。 3、本专利技术是基于搜索的方式进行商品匹配,简单快速,通时系数权重的自动调节 避免了两个商品间相似性的人工设定,因此能够适应不同站点,不同类别的商品间的匹配, 克服了现有技术中只能在浏览过的网页内进行匹配的局限性,适用性更强。【附图说明】 下面结合附图和【具体实施方式】来详细说明本专利技术: 图1为的流程图。【具体实施方式】 为了使本专利技术技术实现的措施、创作特征、达成目的与功效易于明白了解,下面结 合具体图示,进一步阐述本专利技术。 图1为的流程图。 如图1所示,,包括如下步骤: 步骤一,提取商品标识; 通过每个站点的统一资源定位符(url)规则提取该url所对应的商品标识(itemID), 例如,对于京东的 url : http://item. jd. com/1057746. html,商品 id 就是 1057746 ; 对于天猫的 url :http://detail. tmall. com/item. htm?id=40956921400,商品 id 就是 40956921400,这个id即为商品标识,用itemID表示; 步骤二,从不同网站的商品单品页上获取商品标识的键值对数据; 利用cssselect规则从不同网站上去爬取商品单品页上顾客需要的键值对信息;键值 对信息包含商品的url地址、页面标题、产品名称、品牌、型号等;即对于每一个itemID,获 取到了描述它的不同维度的信息; 步骤三,对步骤一中获得的商品标识进行描述分类; 对于从步骤一中获得的每一个itemID,都把它的描述信息分成页面标题和属性列表两 个部分,其中页面标题是商家编辑的对商品的概要描述,而属性列表是这个商品的细节信 息描述,包括:商品名称、品牌、型号(3C商品)、包装和重量(食品类商品); 步骤四,计算每一个商品标识与其它站点的商品标识的相似度值,判断两个商品是否 匹配,筛选出其它站点内与该商品标识相似的itemID ; 首先,在步骤三的基础上,为每一个itemID的页面标题和属性列表建立索引; 进一步地,设定一个商品标识与其它站点的商品标识匹配相似度的阈值为P ; 进一步地,在索引中搜索,将一个商品标识与其它站点的商品标识进行匹配,得到相似 度值,当相似度大于阈值P时,留下此站点的itemID,本文档来自技高网...

【技术保护点】
一种通用的关联不同电商网站单品的方法,其特征在于,包括如下步骤:步骤一,提取商品标识;步骤二,从不同网站的商品单品页上获取商品标识的键值对数据;步骤三,对所述步骤一中获得的商品标识进行描述分类;对于从所述步骤一中获得的每一个itemID,都把它的描述信息分成页面标题和属性列表两个部分;步骤四,将每一个商品标识与其它站点的商品标识进行匹配,筛选出其它站点内与该商品标识相似的itemID;首先,在所述步骤三的基础上,为每一个itemID的页面标题和属性列表建立索引;进一步地,设定一个商品标识与其它站点的商品标识匹配相似度的阈值为P;进一步地,在索引中搜索,将一个商品标识与其它站点的商品标识进行匹配,得到相似度值,当相似度大于阈值P时,留下此站点的itemID,否则滤除;留下itemID的数量为大于等于0的正整数。

【技术特征摘要】

【专利技术属性】
技术研发人员:汤奇峰石子凡
申请(专利权)人:上海晶赞科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1