一种基于主题序列模式的旅游产品推荐方法技术

技术编号:21971351 阅读:21 留言:0更新日期:2019-08-28 01:27
本发明专利技术涉及一种基于主题序列模式的旅游产品推荐方法,试图通过在线旅游网站点击日志的挖掘产生推荐列表。首先,从页面语义描述文本中挖掘主题,以在泛化层面捕捉用户行为模式;其次,从页面访问时间序列数据中挖掘频繁序列模式及其候选产品集,形成序列模式库;最后,提出马尔科夫n‑gram模型,完成用户实时点击流与模式库匹配计算,为了提升在线匹配计算的效率,设计一种新的多叉树数据结构PSC‑tree用于存储历史模式库,并与在线计算模块无缝衔接。本发明专利技术的SECT推荐引擎,不但在性能上比传统推荐算法更有优势,而且能有效提升冷启动用户和长尾物品的推荐率和准确率。

A Method of Tourism Product Recommendation Based on Theme Sequence Model

【技术实现步骤摘要】
一种基于主题序列模式的旅游产品推荐方法
本专利技术涉及信息科学领域,提供了一种基于主题序列模式的旅游产品推荐方法。
技术介绍
近年来,推荐系统领域的研究工作发展迅猛,各种各样的推荐系统亦随之在电子商务、社交网站、电子旅游、互联网广告等大量领域得到了广泛应用,并展示出优越的效果与前景。其中,随着越来越多的在线旅游网站的兴起(如Expedia、Travelzoo、途牛等),能刻画用户旅游兴趣偏好的在线数据越来越丰富,使得旅游产品推荐成为推荐系统研究领域的热门议题之一。目前,针对传统商品的推荐已有许多成熟的推荐算法得到广泛应用,如协同过滤算法、基于内容的推荐算法和混合型推荐算法等,然而旅游产品推荐与电影、商品等传统推荐有显著差异。首先,用户通常不会频繁或大量购买旅游产品,这导致“用户-产品”关联矩阵极为稀疏;其次,旅游产品描述信息维度多样复杂,微小的参数变化会导致完全不同的旅游产品,如景点参观线路和日程、酒店和交通工具选择等因素的变化,然而这类有内在关联的不同旅游产品却指向用户共同的兴趣偏好;再次,用户往往不会长期关注旅游产品,即在电子旅游网站上留下访问记录,而往往是有了旅游目标和安排之后,才开始浏览旅游产品,这导致在线旅游数据中存在大量冷启动用户。因此,针对传统商品的推荐算法很难直接应用到旅游推荐领域。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术的示例性实施充分利用了在线旅游网站中的点击流数据,研究基于主题序列模式的旅游产品推荐方法。具体而言,本专利技术首先提出了SECT(sequentialrecommendationenginefortravelproducts)推荐方法,该方法通过用户实时点击流可以捕捉用户的兴趣偏好,并实时产生旅游产品推荐列表;其次,本专利技术分别从旅游页面的主题挖掘、访问序列的模式挖掘和模式库的存储、匹配计算等方面对SECT的原理进行了详细的说明。为了提升在线匹配计算的效率,本专利技术设计一种新的多叉树数据结构PSC-tree用于存储历史模式库,并与在线计算模块无缝衔接。技术方案:一种基于主题序列模式的旅游产品推荐方法,包括如下步骤:步骤一、将点击流中的旅游相关页面泛化为主题;步骤二、从页面访问时间序列数据中挖掘频繁序列模式及其候选产品集,形成序列模式库;步骤三、提出了一个多叉树数据结构PSC-tree(patternsupportcandidate-tree)用于存储历史模式库,并与匹配计算模块无缝衔接;步骤四、提出马尔科夫n-gram模型,完成用户实时点击流与模式库匹配计算。进一步地,步骤一中,所述主题泛化采用LDA(latentdirichletallocation)模型降维并过滤噪音,再通过K-Means进行文本聚类实现主题抽取;首先,对线路页面文本信息进行分词、去停用词等预处理操作得到文本向量矩阵;其次,借助LDA模型对所有文本向量矩阵进行主题建模,并采用Gibbs抽样法对建模后的文本向量矩阵进行求解,得到线路页面的隐含主题概率分布矩阵,进而将该矩阵作为K-Means的输入;最终聚类后的每个类簇分别代表线路页面的不同主题I={i1,i2,…,iM}为训练集中所有的页面集合,Т={t1,t2,…,tK}为所有页面泛化后的主题集合,页面主题泛化可以抽象为函数:其中M表示页面的数量,设K为页面泛化的主题数量,tk表示为页面ip经泛化后的主题。进一步地,主题抽取方法,其中包括频繁序列模式挖掘和候选产品集生成:主题访问序列事务集由训练集中所有主题访问序列组成,记为D={D1,D2,…,DU},1≤u≤U,其中U为用户数量,Du表示由连续访问页面组成的访问序列Xu通过主题泛化后得到的主题访问序列;将主题访问序列事务集D作为Eclat的输入,得到挖掘出的主题频繁时序模式项集,记为P={P1,P2,…,PS},其中S为模式的数量;抽取每个频繁模式在原始会话中紧跟着的旅游产品页面作为候选项集,其中模式Ps(1≤s≤S)对应的候选集记为CPs,每个模式对应的候选集都是I的子集,最终所有模式对应的候选集记为C={CP1,CP2,…,CPs}。进一步地,频繁序列模式挖掘方法,其中包括构造一个PSC-tree多叉树存储结构,其结构为:包含一个名为Root的根节点,其余节点为Root节点的孩子节点,每个节点都有2个域,第1个域存储模式的支持度计数,第2个域存储产品候选集,从PSC-tree第2层的每个节点开始,每一个遍历到孩子节点的路径分别代表对应的主题序列模式。进一步地,步骤4中,采用条件概率Pr(it|Tp1)表明用户u购买目标产品的概率,其中条件概率Pr(it|Tp1)表示给定会话Xu时,用户u对产品it的偏好程度,即:Pr(it|Tp1)越大表明用户u购买该目标产品的概率越高,假设Pr(it|Tp1)只与前面n-1个访问页面相关,称为马尔科夫n-gram独立性假设,即:在马尔科夫n-gram独立性假设之下,上式可以简化为:此处,Tt=φ(it),对于给定的频繁模式集合,σ(·)为序列或者模式的支持度计数。有益效果:本专利技术提出了SECT推荐引擎,不但在性能上比传统推荐算法更有优势,而且能有效提升冷启动用户和长尾物品的推荐率和准确率。附图说明图1是体现出北京旅游偏好的2个不同在线会话的举例;图2是PSC-tree的示例说明;图3是SECT推荐引擎总体框架;图4(a)是在F-measure评价指标上的比较,图4(b)是在Coverage评价指标上的比较,图4(c)是在NDCG@K评价指标上的比较;图5是SECT,UCF和SVD算法产生推荐的冷启动用户的统计;图6是SECT,UCF和SVD算法准确推荐的冷启动用户的统计;图7是训练集中产品的访问频率分布,可以看出长尾现象尤其显著;图8是SECT,UCF和SVD算法在旅游数据集上推荐产品的平均流行度(即:产品在训练集中的访问频率);图9是SECT,UCF和SVD算法在top-20推荐列表中准确推荐的长尾产品的比例。具体实施方式下面结合附图对本专利技术做更进一步的解释。提供了一种基于主题序列模式的旅游产品推荐方法,主要包括以下步骤:从页面语义描述文本中挖掘主题,以在泛化层面捕捉用户行为模式;从页面访问时间序列数据中挖掘频繁序列模式及其候选产品集,形成序列模式库;提出马尔科夫n-gram模型,完成用户实时点击流与模式库匹配计算;设计一种新的多叉树数据结构PSC-tree用于存储历史模式库,并与在线计算模块无缝衔接。以下将结合附图,对上述步骤逐一说明。页面主题泛化试图将内容相似的不同页面投影到同个主题,进而将主题相同的访问序列合并成一个主题序列。图1给出了一个说明性例子,从Page_ID上看,2个用户访问序列差异甚大。但是,从页面描述文本上看,两个访问序列均反映出用户计划去北京旅游的兴趣偏好。此外,访问序列中的分类页面和攻略页面也同样反映出用户的兴趣偏好。本方法提出用LDA(latentdirichletallocation)模型降维并过滤噪音,再通过K-Means进行文本聚类实现主题抽取。首先,对线路页面文本信息进行分词、去停用词等预处理操作得到文本向量矩阵。其次,借助LDA模型对所有文本向量矩阵进行主题建模,并采用Gibbs抽样法对建模后的文本本文档来自技高网...

【技术保护点】
1.一种基于主题序列模式的旅游产品推荐方法,其特征在于,包括如下步骤:步骤一、将点击流中的旅游相关页面泛化为主题;步骤二、从页面访问时间序列数据中挖掘频繁序列模式及其候选产品集,形成序列模式库;步骤三、提出了一个多叉树数据结构PSC‑tree(pattern support candidate‑tree)用于存储历史模式库,并与匹配计算模块无缝衔接;步骤四、提出马尔科夫n‑gram模型,完成用户实时点击流与模式库匹配计算。

【技术特征摘要】
1.一种基于主题序列模式的旅游产品推荐方法,其特征在于,包括如下步骤:步骤一、将点击流中的旅游相关页面泛化为主题;步骤二、从页面访问时间序列数据中挖掘频繁序列模式及其候选产品集,形成序列模式库;步骤三、提出了一个多叉树数据结构PSC-tree(patternsupportcandidate-tree)用于存储历史模式库,并与匹配计算模块无缝衔接;步骤四、提出马尔科夫n-gram模型,完成用户实时点击流与模式库匹配计算。2.根据权利要求1所述的基于主题序列模式的旅游产品推荐方法,其特征在于,步骤一中,所述主题泛化采用LDA(latentdirichletallocation)模型降维并过滤噪音,再通过K-Means进行文本聚类实现主题抽取;首先,对线路页面文本信息进行分词、去停用词等预处理操作得到文本向量矩阵;其次,借助LDA模型对所有文本向量矩阵进行主题建模,并采用Gibbs抽样法对建模后的文本向量矩阵进行求解,得到线路页面的隐含主题概率分布矩阵,进而将该矩阵作为K-Means的输入;最终聚类后的每个类簇分别代表线路页面的不同主题I={i1,i2,…,iM}为训练集中所有的页面集合,Т={t1,t2,…,tK}为所有页面泛化后的主题集合,页面主题泛化可以抽象为函数:1≤p≤M,1≤k≤K,其中M表示页面的数量,设K为页面泛化的主题数量,tk表示为页面ip经泛化后的主题。3.根据权利要求2所述的基于主题序列模式的旅游产品推荐方法,其特征在于,主题抽取方法,其中包括频繁序列模式挖掘和候选产品集生成:主题访问序列事务集由训练集中所有主题访问序列组成,记为D={D...

【专利技术属性】
技术研发人员:王有权王震方昌健
申请(专利权)人:南京灵澈信息技术有限公司云境商务智能研究院南京有限公司
类型:发明
国别省市:江苏,32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1