一种基于高斯估计的在线餐饮主标签数据快速提取方法技术

技术编号:14265411 阅读:201 留言:0更新日期:2016-12-23 10:37
一种基于高斯估计的在线餐饮主标签数据快速提取方法,包括以下步骤:1)获取商铺标签数据,以及用户评分与评论数据,并对商铺标签数据进行预处理;2)针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;3)针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;4)将估计标签、实际完整标签分别和评论数据作测试,取两者匹配率的相对偏差作为模型的最终评价成绩。本发明专利技术提取高斯分布下最大似然口味标签作为用户就餐行为的主选口味标签,提取精度较高且算法复杂度较低,适合实际应用场景。

【技术实现步骤摘要】

本专利技术涉及数据挖掘与推荐系统领域,特别是涉及一种基于高斯估计的在线餐饮主标签数据快速提取方法
技术介绍
数据挖掘中采集的数据往往会有各种噪声,例如缺失数据,或异常数据,显然噪声数据能够影响后续建模的性能。数据去噪是非常重要的预处理步骤,目的是提取出保留最大信息量的数据。在用户数据分析的过程中,有时候用一个好的数据去噪方法来提高精确度,比复杂的算法优化效果要好得多。设计推荐系统的主要目的是为了预测用户的行为偏好,而分析素材往往来源于用户的历史行为数据。要想发掘用户某次购买行为的内容,常见的方法是可以通过自然语言分析用户评论,或者机器学习用户上传的图片来获知。但这些算法复杂度较高,显然不适用于快速性要求较高的数据预处理过程。特别是在分析用户去餐馆吃饭的历史记录,各个餐馆都具有不同的标签数据,如何快速找出该用户该次用餐主要选择了哪种标签的菜肴,是本专利技术解决问题的主要动机。
技术实现思路
为了克服现有的餐饮数据提取方式的无法兼顾内容完整性与效用性的不足,本专利技术提供一种去噪后的数据在内容完整性与效用性上具有均衡的表现、效果良好的基于高斯估计的在线餐饮主标签数据快速提取方法。本专利技术解决其技术问题所采用的技术方案如下:一种基于高斯估计的在线餐饮主标签数据快速提取方法,包括以下步骤:S1:获取商铺标签数据,以及用户评分与评论数据,对商铺标签数据进行预处理,删除共同标签和无效标签;S2:针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;S3:针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;S4:将上述估计标签、实际完整标签分别和评论数据作测试,取两者匹配率的相对偏差作为模型的最终评价成绩。进一步,所述步骤S1中,需要删除的数据是指那些大多数或所有餐馆都具有的口味标签,以及那些无法明确表达口味信息的标签,例如“餐馆”,“食物”等。再进一步,所述步骤S2中,计算各个口味的高斯分布模型方法,例如计算用户ui的口味高斯分布模型,过程如下:已知该用户去了某些餐馆的历史记录{r1,r2,...,rT本文档来自技高网...
一种基于高斯估计的在线餐饮主标签数据快速提取方法

【技术保护点】
一种基于高斯估计的在线餐饮主标签数据快速提取方法,其特征在于:所述提取方法包括以下步骤:S1:获取商铺标签数据,以及用户评分与评论数据,对商铺标签数据进行预处理,删除共同标签和无效标签;S2:针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;S3:针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;S4:将上述估计标签、实际完整标签分别和评论数据作测试,取两者匹配率的相对偏差作为模型的最终评价成绩。

【技术特征摘要】
1.一种基于高斯估计的在线餐饮主标签数据快速提取方法,其特征在于:所述提取方法包括以下步骤:S1:获取商铺标签数据,以及用户评分与评论数据,对商铺标签数据进行预处理,删除共同标签和无效标签;S2:针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;S3:针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;S4:将上述估计标签、实际完整标签分...

【专利技术属性】
技术研发人员:宣琦周鸣鸣张致远傅晨波翔云吴哲夫
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1