基于分布式的B2B平台的个性化推荐方法与系统技术方案

技术编号:10162498 阅读:150 留言:0更新日期:2014-07-01 18:11
本专利公开了一种基于分布式技术的Hadoop平台上的B2B平台的个性化推荐方法及系统。首先,发明专利技术基于Hadoop的分布式存储技术,对各种数据如网站日志文件、产品信息、用户信息等进行集中放置、存储和查询,快速高效的处理数据。其次,使用Hadoop平台下的Hive服务对数据进行预处理,使用Map/Reduce实现高效、快速的实现推荐算法。之后,使用Map/Reduce实现对文本信息进行信息检索、文本挖掘工作,匹配用户对询盘、采购所需要的产品信息,获得个性化推荐信息。最后,使用Hadoop平台下的HBase服务提供大数据存储、查询,提升网站推荐用户响应。

【技术实现步骤摘要】
【专利摘要】本专利公开了一种基于分布式技术的Hadoop平台上的B2B平台的个性化推荐方法及系统。首先,专利技术基于Hadoop的分布式存储技术,对各种数据如网站日志文件、产品信息、用户信息等进行集中放置、存储和查询,快速高效的处理数据。其次,使用Hadoop平台下的Hive服务对数据进行预处理,使用Map/Reduce实现高效、快速的实现推荐算法。之后,使用Map/Reduce实现对文本信息进行信息检索、文本挖掘工作,匹配用户对询盘、采购所需要的产品信息,获得个性化推荐信息。最后,使用Hadoop平台下的HBase服务提供大数据存储、查询,提升网站推荐用户响应。【专利说明】基于分布式的B2B平台的个性化推荐方法与系统
本专利技术涉及电子商务和数据挖掘领域,具体地说是面向B2B电子商务环境的一种基于分布式的个性化推荐方法,针对B2B电子商务承载海量数据的特点,利用Hadoop分布式架构存储记录用户行为和产品信息,并使用其实现快速、高效的B2B电子商务个性化推荐服务。
技术介绍
随着Internet的迅猛发展,电子商务对企业与个人的生产与生活都带来了深远的影响,伴随着互联网电子商务时代到来的是快速增长的数据,大量的信息发布,琳琅满目的信息、繁杂的商品类别,使用户在对自己需求相对不明确时,很难在搜索引擎中搜索自己需要的信息,进一步,用户需要更加符合个人兴趣与爱好的搜索结果就更加困难。此时推荐引擎应运而生,用户获得信息结果的方式从单一的目标关键词搜索,转换到更符合个人使用习惯、更符合个人兴趣喜好的信息发现过程。根据推荐引擎是否为不同用户推荐不同产品,可以将推荐引擎分为大众行为推荐与个性化推荐,这里所提到的推荐更多的是个性化的推荐。专利“一种网络商品个性化推荐方法及系统”(专利申请号CN201310310951.4),使用用户历史购买商品行为,利用协同过滤方法进行个性化推荐,用户偏好主要使用用户的购买商品的行为获得。但对于大多数B2B网站是没有用户交易数据的;B2C因用户需要购买商品,用户会经常性的登录网站,使得对用户的身份识别较容易,用户的身份明确后才可获得他的历史网站行为情况,B2B网站用户可以在不登录网站的情况下完成所有的采购行为,身份的识别却成为难点。个性化推荐被广泛应用于各大B2C电子商务网站,Amazon、eBay、当当网、淘宝等,但是B2B平台的个性化推荐面临着更多,更大的难题,如买家身份难以识别,买家行为数据时间跨度长,总量大等,使用主流的基于B2C平台的推荐策略已经无法满足B2B个性化推荐性能需要。面对以上提出的推荐性能、推荐策略的不足,本专利利用Hadoop分布式架构在处理海量数据方面具有显著优势,使用分布式技术来有效解决推荐中的大数据存储、大运算量等多种大数据问题,包括提高服务质量的同时降低运维、设备成本,分布式存储技术以及并行处理框架技术能够有效弥补现有推荐系统中数据预处理、算法运行、查询检索过慢的缺陷,从而极大地提高推荐系统的效率。针对B2B电子商务平台服务特点,针对不同类型的大数据采用不同处理技术,最大程度识别买家的身份,为个性化推荐提供数据的保证,并提出混合的推荐算法,使其更好的应用于B2B不同的应用场景,提高网站用户体验。综上所诉,本专利设计了一种基于分布式技术的Hadoop平台上的B2B平台的个性化推荐方法及系统。
技术实现思路
本专利技术在Hadoop框架的基础上实现了高效的B2B电子商务个性化推荐系统。首先,专利技术基于Hadoop的分布式存储技术,对各种数据如网站日志文件、产品信息、用户信息等进行集中放置、存储和查询,快速高效的处理数据。其次,使用Hadoop平台下的Hive服务对数据进行预处理,使用Map/Reduce实现高效、快速的实现推荐算法。之后,使用Map/Reduce实现对文本信息进行信息检索、文本挖掘工作,匹配用户对询盘、采购所需要的产品信息,获得个性化推荐信息。最后,使用Hadoop平台下的HBase服务提供大数据存储、查询,提升网站推荐用户响应。本专利技术是一种B2B电子商务环境下基于分布式处理的个性化推荐方法,包括:步骤1:形成买家身份知识库以及买家偏好知识库,存储在分布式数据仓库Hive中。针对B2B平台的特点,采集买家在电子商务平台各类型行为数据,数据来源大致有以下二种:1)网络日志;2)买家客服运营数据;3)线下交易会买家身份数据及偏好。对不同数据源的数据,包括文本数据网络日志,买家客服维护操作的运营数据,以及人工录入或移动端采集的线下酒会、展会等获得的买家信息及其采购需求数据,根据其特点进行不同方式的处理。步骤I包括以下几个环节:a)对业务系统数据中的买家客服运营信息,包含邮件、电话回访记录、邮件营销反馈结果、用户调研问卷等,清洗关联这些相关信息,并将处理结果存入Oracle关系型数据仓库中。b)对网站日志使用分布式技术Map/Reduce进行解析和计算,获得用户行为数据,包括用户点击了哪些产品,用户询盘了哪些产品等信息,汇总统计,为后面推荐算法的计算提供数据准备,存入分布式数据仓库Hive中。c)对于线下活动产生的移动端数据(通过平板电脑和手机收集的信息数据)、名片等数据,采用ETL工具将数据清洗、整合后,存储到Oracle关系型数据库中。d)采用Hadoop平台的Sqoop工具,将Oracle的数据加载到Hive数据库中,通过ETL把用户的身份信息(Email、电话、公司ID、访问IP、访问Cookie)进行关联,形成网站买家身份知识库。e)在Hive中整合买家的多种信息,最后形成网站买家偏好知识库。其数据来源包括:●在网站上的浏览、搜索、询盘记录;●客服与买家沟通形成的买家偏好信息记录;●买家在展会现场移动端留下的包含偏好信息的记录。网站买家身份知识库和网站买家偏好知识库都存在分布式数据仓库Hive中。这两个知识库为后续的推荐算法提供所需要的计算数据。步骤2:利用获得的买家身份知识库与买家偏好知识库中的数据,通过Map/Reduce实现推荐算法的处理,进行个性化推荐方法的实施,本方法实现了在多个场景下的个性化推荐,其中场景包括首页、目录页、询盘完成页、产品页。a)当用户访问首页阶段,在确定用户身份信息后,根据买家偏好知识库中的用户历史行为数据,使用协同过滤与基于内容算法相结合的推荐方法,推荐相关产品。b)在用户访问目录页阶段,在目录页依据统计分析方法获得行业的热门产品推荐,其中,热门产品根据统计每个行业内被买家最多点击与询盘的产品获得;c)在用户完成询盘阶段,使用协同过滤与基于内容算法相结合的推荐方法,推荐相关广品;d)在用户访问产品页阶段,使用协同过滤与基于内容的推荐方法,推荐用户相关 口广BH ο最终实现网站各页面不同的并行化的推荐,满足用户在各浏览询价阶段对产品的不同需求,推荐方法计算所得结果存入到分布式数据仓库Hive中;步骤3:将Hive数据仓库中的用户身份知识库、用户偏好知识库,以及推荐结果,通过ETL进行数据模型的重构,转变为HBase面向列的分布式存储,然后加载到Hadoop平台中的NoSQL数据库HBase中,HBase在海量数据的情况下,提供给B2B电子商务访问者在线高效的数据检索性能。步骤4:用户推荐结果的显示本文档来自技高网
...

【技术保护点】
一种B2B电子商务环境下基于分布式处理的个性化推荐方法,其特征在于,具体包括步骤:步骤一、形成买家身份知识库以及买家偏好知识库,存储在分布式数据仓库Hive中;步骤二、利用获得的买家身份知识库与买家偏好知识库中的数据,通过Map/Reduce实现推荐算法的处理,进行个性化推荐方法的实施,实现在多个场景下的个性化推荐;最终实现网站各页面不同的并行化的推荐,满足用户在各浏览询价阶段对产品的不同需求,推荐方法计算所得结果存入到分布式数据仓库Hive中;步骤三、将Hive数据仓库中的用户身份知识库、用户偏好知识库,以及推荐结果,通过ETL进行数据模型的重构,转变为HBase面向列的分布式存储,然后加载到Hadoop平台中的NoSQL数据库HBase中,HBase在海量数据的情况下,提供给B2B电子商务访问者在线高效的数据检索性能;步骤四、用户推荐结果的显示步骤。

【技术特征摘要】

【专利技术属性】
技术研发人员:肖洁芩徐晓冬房鹏展
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1