电子商务网站相关商品推荐系统及其方法技术方案

技术编号:2828921 阅读:267 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种电子商务网站相关商品推荐系统,从顾客的购物历史数据和购物内容出发挖掘特征词,利用数学方法建立不同特征向量间的相似关系,得到商品间的相似关系,从而为顾客找到商品。同时还公开了相关商品的推荐方法,从数据库中提取一定时间跨度的数据,选取并计算有用的数据信息段建立“商品-顾客”计算模型,再按照“商品-顾客-其他商品”模式进行商品间相似度的计算,并将结果推荐给顾客。从而抓住顾客心理,促使顾客购买相关商品,刺激增加销量。

【技术实现步骤摘要】

本专利技术涉及电子商务网站的相关商品推荐领域,特别是涉及电子商务网站的基于购物行 为Item的商品推荐技术和基于内容的商品推荐技术。
技术介绍
当今时代是信息技术的时代,互联网在人们的生活中占据了相当大的比重,网上购物就 是其中之一。为此,电子商务网站都以获得最大利益为目标,用技术和非技术的方法,增加 注册顾客、增加订单量、提供优质的服务。在这些前提下,个性化的商品推荐技术应运而生。目前,国内的一些推荐技术大多采用比较原始的方法。最原始的方法是数据库查询,通过sql语句找到数据库中和顾客浏览、收藏或是购买 的商品有相同作者、相同分类、相同主题等的其他一些商品,推荐给顾客。问巻反馈方式, 通过提问,让顾客回答一些问题,直接了解顾客的喜好,推荐合适的商品。此外还有关联 规则等等形式的商品推荐方法。以上这些方法,在推荐的准确性、实时性等方面不够理想,推荐的自动化程度和持久性程度低,缺乏个性化。总结起来,目前国内商品推荐存在以下缺点缺乏个性化的推荐。很多的推荐结果是针对所有用户的,或者是针对大部分用户的,不 是针对某个用户当前行为的个性化的推荐。这些推荐结果中,可能很多的推荐与某些用户的 兴趣并不相符。这是我国电子商务推荐的最大缺点。推荐的自动化程度低。大多数的推荐功能都需要用户经过一段时间与计算机的交互,输 入自己的兴趣信息,然后才能得到结果(问巻反馈方式)。推荐的持久性程度低。目前国内大部分的推荐技术都是建立在当前用户会话基础上的, 不能利用用户以前的会话信息,推荐的持久性程度非常低,这也是国内推荐技术的一个主要 缺点。推荐方法单一。所运用的大多数推荐策略基本上就是分类浏览和基于内容的检索,缺乏 多种推荐策略的混合使用,尤其是缺少个性化的与非个性化的推荐策略的混合使用。实时性差,不能在线推荐。有的推荐策略不能做到在线推荐,如信函式推荐,推荐结果 不能及时反馈给用户。推荐的局限性大。大部分只能推荐那些有一定销售量、关注量的商品,而对于那些刚刚 上架的新进的商品,无所适从——冷开始问题。
技术实现思路
为了解决以上问题,给顾客推荐他们可能要购买的商品,同时又能推荐新上架的商品, 本专利技术提供一种简便的在电子商务网站使用的方法首先使用基于购物历史挖掘的推荐技术,从顾客的实际购物数据出发进行挖掘,得到的 相关推荐商品符合顾客客观的实际的购物趋势和兴趣习惯。然后,使用基于内容挖掘的自然语言处理相关技术,挖掘商品信息的特征词,把商品表 示成相关的信息特征向量,根据不同特征向量间的相似关系得到商品间的相似关系,从而为 顾客推荐相关商品。综上所述,系统由基于购物历史挖掘部分和基于内容挖掘部分构成。 第一部分基于购物历史挖掘部分如图1所示,本专利技术系统所使用的功能模块包括源数据准备模块、数据字段提取模块、 计算模型模块、相关商品计算模块。其中的每个部分都是本专利技术得以实现并成功应用的基础, 构成了一个技术系统。1. 源数据准备模块从数据库中提取一定时间跨度的订单数据、浏览日志、搜索日志等等, 能反映商品一顾客关系的数据集。2. 数据字段提取模块提取每条订单中的有用信息,如购买日期、购买人、购买商品等 数据。3. 计算模型模块通过分析这些数据,建立商品-顾客计算模型。4. 相关商品计算模块按照商品——购买该商品的顾客——该顾客购买其他商品的关系, 针对模型中的每个商品,从该商品本身出发,找到购买过它的顾客,再从顾客出发,找 到和它存在关系的商品,然后运用核心公式计算这两个商品之间的相似度。最后,计算完毕后得到每个商品的推荐结果的倒排文件。 具体包括以下步骤1) 原始数据准备可以是订单数据,或是浏览日志,搜索日志等等。2) 数据字段提取取得数据源中有用的计算信息,如时间、人、商品等。3) 建立计算模型通过分析提取的数据,建立商品-顾客计算模型(表示哪些顾客购 买了哪些商品、哪些商品被哪些顾客购买过等关系)。4) 相关商品计算模型用核心计算公式计算每个商品的相关商品集合。 其中,上述步骤4的核心计算公式有很多种选择,比如(1) Ll—Norm算法<formula>formula see original document page 5</formula>(2) L2 —Norm算法:<formula>formula see original document page 6</formula>(3) Mil算法.-<formula>formula see original document page 6</formula>(4) C0S算法:<formula>formula see original document page 6</formula>以上例举了 4个比较常用的公式,计算的侧重点和效果各不相同,其他还有一些公式, 选用哪种,由具体需求决定,即可单独使用,也可以组合使用。 第二部分基于内容挖掘部分-如图5所示,本专利技术系统所使用的功能模块包括商品信息初始化模块,分词模块,特征词组模块,特征词模块,向量组合模块和相关度计算模块。其中的每个部分都是本专利技术得 以实现并成功应用的基础并构成了一个技术系统。商品信息初始化模块读取每条商品相关的信息,建立商品ID和描述信息的对应集。分词模块对描述信息进行中文分词,获得分词后的结果。特征词组模块计算商品描述信息分词后的特征词组。特征词模块计算商品描述信息分词后的特征词。向量组合模块将特征词组和特征词表示成商品特征向量的集合。相关度计算模块通过特征向量的集合,计算商品间的相似度,作为相关商品的备选集合。包括以下步骤1) 准备相关商品的信息,包括商品标题、商品内容、内容摘要等描述商品的信息。2) 对商品信息进行词法分析,得到计算特征词组和特征词的备选集合。3) 计算特征词组,可使用多种方法把备选词组合作为特征词组,如基于n元语法的组合 词抽取。4) 计算特征词,对备选词排序,得到备选词的权重,如可以计算词的TFIDF值。5) 将特征词组和特征词联合构成代表商品特征的向量集。6) 计算每个商品的相关商品,并将结果显示出来推荐给顾客。本专利技术可应用于基于购物行为Item的商品推荐、基于内容的商品推荐以及没有顾客购买 记录的新上架商品的推荐等。几者之间可以互为补充,从不同角度解决商品推荐问题,为用 户购物提供良好的体验,从而达到增加商务网站的销售量。 附图说明图1是本专利技术的基于购物历史挖掘部分的系统流程图。 图2是本专利技术的基于购物历史挖掘部分的数据处理模块流程图。 图3是本专利技术的基于购物历史挖掘部分的计算模型倒排及索引结构图。 图4是本专利技术的基于购物历史挖掘部分的计算相关商品流程图。 图5是本专利技术的基于内容挖掘部分的商品推荐流程图。 图6是本专利技术的基于内容挖掘部分的抽取关键词组和关键词的流程图。 图7是本专利技术的基于内容挖掘部分的相关商品计算的流程图。 具体实施例方式例l:某购物网站三个月订单的处理 步骤l:原始数据准备如提取3个月的订单数据OrderInfo.txt,格式为(时间顾客ID商品ID商品名) 例如OrderInfo.txt的前20行的数据显示<table>table see本文档来自技高网
...

【技术保护点】
一种电子商务网站相关商品推荐系统,从顾客的购物历史数据和购物内容出发挖掘特征词,利用数学方法建立不同特征向量间的相似关系,得到商品间的相似关系,从而为顾客推荐相关商品,其中顾客的购物历史部分包括:源数据准备模块:从数据库中提取一定时间跨度的能反映“商品-顾客”关系的数据集;数据字段提取模块:提取每条订单中的有用信息,建立“商品-顾客”计算模型;相关商品计算模块:按照商品-购买该商品的顾客-该顾客购买其他商品的关系,运用核心公式计算它们之间的相似度;最后,得到每个商品的推荐结果的倒排文件;其中购物内容部分包括:商品信息初始化模块:读取每条商品相关的信息,建立商品ID和描述信息的对应集;分词模块:对描述信息进行中文分词,获得分词后的结果;特征词组模块:计算商品描述信息分词后的特征词组;特征词模块:计算商品描述信息分词后的特征词;向量组合模块:将特征词组和特征词表示成商品特征向量的集合;相关度计算模块:通过特征向量的集合,计算商品间的相似度,作为相关商品的备选集合。

【技术特征摘要】
1.一种电子商务网站相关商品推荐系统,从顾客的购物历史数据和购物内容出发挖掘特征词,利用数学方法建立不同特征向量间的相似关系,得到商品间的相似关系,从而为顾客推荐相关商品,其中顾客的购物历史部分包括源数据准备模块从数据库中提取一定时间跨度的能反映“商品-顾客”关系的数据集;数据字段提取模块提取每条订单中的有用信息,建立“商品-顾客”计算模型;相关商品计算模块按照商品——购买该商品的顾客——该顾客购买其他商品的关系,运用核心公式计算它们之间的相似度;最后,得到每个商品的推荐结果的倒排文件;其中购物内容部分包括商品信息初始化模块读取每条商品相关的信息,建立商品ID和描述信息的对应集;分词模块对描述信息进行中文分词,获得分词后的结果;特征词组模块计算商品描述信息分词后的特征词组;特征词模块计算商品描述信息分词后的特征词;向量组合模块将特征词组和特征词表示成商品特征向量的集合;相关度计算模块通过特征向量的集合,计算商品间的相似度,作为相关商品的备选集合。2. 如权利要求l所述的一种电子商务网站相关商品推荐系统,其特征在于源数据准备模 块是指执行从数据库中提取一定时间跨度的订单数据、浏览日志、搜索日志。3. 如权利要求l所述的一种电子商务网站相关商品推荐系统,其特征在于数据字段提取 模块是指执行提取每条订单中的购买日期、购买人、购买商品...

【专利技术属性】
技术研发人员:曹杨庄洪波王洪涛张研
申请(专利权)人:北京科文书业信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利