一种基于地理位置和兴趣点信息的用户细分方法技术

技术编号:11187946 阅读:80 留言:0更新日期:2015-03-25 16:47
本发明专利技术公开了一种基于地理位置和兴趣点信息的用户细分方法,具体包括如下步骤:步骤一、选择训练用户,并将其兴趣点信息转化为文本形式;步骤二、构建用户兴趣点属性字典;步骤三、LDA模型训练;步骤四、预测且细分新用户:(1)对于每一位新用户,按照步骤二的方法构建该用户的兴趣点属性字典;(2)按照步骤三的方法将该用户的兴趣点从文字格式转化为BOW格式,再将BOW格式的训练数据填入训练好的LDA模型;(3)LDA 模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。通过用户经常去到的地方将用户进行细分。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种基于地理位置和兴趣点信息的用户 细分方法。
技术介绍
为了能够提供个性化的市场营销战略,需要根据用户的一些特征将用户进行细 分。比如当需要将社交网络上的用户进行细分时,可以通过分析用户所听的音乐类型、喜欢 看的电影或者电视剧类型、浏览的网站类型、喜欢拍或者观赏的照片、社交网络上结交的朋 友类型以及喜欢阅读的书籍类型。最终,我们能够从社交网络上搜寻到某个特定的用户,例 如他们的爱好和私人信息。可以将用户细分为(1)喜欢玩游戏的用户;(2)喜欢听音乐的 用户;(3)喜欢看电影的用户;(4)喜欢网上购物的用户;(5)喜欢阅读的用户;(6)喜欢旅 行的用户;(7)喜欢美食的用户等等,这是根据用户使用的软件以及网页浏览的习惯对用 户进行细分。 然而,当用户没有使用这些软件或者没有浏览网页的时候,如何对这些用户进行 细分则没有有效的方法。
技术实现思路
针对现有技术中的上述技术问题,本专利技术公开了一种基于地理位置和兴趣点信息 的用户细分方法。 本专利技术的专利技术目的通过下述技术方案来实现: 本专利技术公开了,具体包括如下步 骤: 步骤一、选择一组用户作为训练用户,根据其中每个用户的地理位置得到其周边 的兴趣点信息,并将该兴趣点信息转化为文本形式; 步骤二、构建用户兴趣点属性字典:将所有训练用户的兴趣点信息集合在用户属 性字典中; 步骤三、LDA模型训练: (1)基于构建好的用户属性字典,创建一个代表整个训练数据集的词袋BOW ; (2)利用创建好的词袋,把所有训练用户的兴趣点信息从文字格式转换到BOW格 式; (3)将BOW格式的训练数据填入LDA模型来进行训练; 步骤四、预测且细分新用户: (1)对于每一位新用户,按照步骤二的方法构建该用户的兴趣点属性字典; (2)按照步骤三的方法将该用户的兴趣点从文字格式转化为BOW格式,再将BOW格 式的训练数据填入训练好的LDA模型; (3) LDA模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。通 过用户的可能渠道的兴趣点将用户进行细分。 更进一步地,上述方法还包括移除训练数据中兴趣点出现次数少于5次的属性。 这是因为出现频率太低的兴趣点不会对LDA模型的准确度有任何的帮助;相反,频率低的 兴趣点对模型的准确度是有害的。 更进一步地,上述方法还包括移除训练数据中出现频率高于90%的兴趣点信息。 这是因为出现频率太高的兴趣点不会对LDA模型的准确度有任何的帮助;相反,频率高的 兴趣点对模型的准确度是有害的。 更进一步地,上述地理位置通过GPS定位得到。 更进一步地,上述兴趣点信息从定位数据对应的电子地图中获取。比如百度地图。 通过采用以上的技术方案,本专利技术的有益效果是:通过将客户去过的地方来量化 的勾勒出用户的类型,即所有客户不再被看成简单的数字,而是具有不同兴趣点(标签)的 个体。用用户的兴趣点来量化地勾勒出用户的具体细节轮廓。采用本专利技术方法得出的对用 户兴趣点的诠释在某些时候甚至能超过个体本人对自身的诠释和了解。本专利技术可以将用户 细分为个性化的群组,例如,喜欢运动的用户、学生用户以及喜欢购物的用户的用户;可以 用群组主题上类似的兴趣点一起来构成主题上有联系的群组;本专利技术还可以预测或者细分 新的(或者未预见的)用户为各种主题。 【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本 专利技术进行进一步详细的说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。 本专利技术中,POI是兴趣点(Point of Interest)的简称。POI是指大众可能觉得有 用或感兴趣的具体地点。POI在电子地图中通常包含各大酒店、露营地点、加油站、商铺、医 院和现代GPS系统中可能出现的其他分类里涵盖的地点。GPS系统中关注点的具体信息至 少会显示POI的经炜度、地名和相关常见信息内容。其他涉及到的地点信息还可以包括海 拔高度或联系电话等。因此,当知道一个GPS的定位坐标,就可以利用类似百度地图这样的 POI信息,就能搜索出设定区域内所有的兴趣点信息。 LDA 算法,Latent Dirichlet Allocation(潜在主题抽取)算法,Latent Dirichlet Allocation (潜在主题抽取)或者LDA,是一种被应用在文本挖掘方面的机器学 习方法,通常目的在于从一个文档集合中自动发现专题论题。简而言之,LDA模型从一大堆 文档集合中抽取一个预先确定数量的主题,而且该训练模式可以被用来推断其后任何文档 的主题(不同的权重)。例如,一个文档谈论苹果电脑和汽车,那么其推断主题很可能即为 电脑和汽车。主题建模是指,将整个文档集合细分成相关少数主题的词并且作为主题 融合代表每个文档。这样,通过察看主题中的词就可以解释这个模型。 其中的一个实施例 本专利技术公开了,具体包括如下步 骤: 步骤一、选择一组用户作为训练用户,根据其中每个用户的地理位置得到其周边 的兴趣点信息,并将该兴趣点信息转化为文本形式; 步骤二、构建用户兴趣点属性字典:将所有训练用户的兴趣点信息集合在用户属 性字典中; 步骤三、LDA模型训练: (1)基于构建好的用户属性字典,创建一个代表整个训练数据集的词袋BOW ; (2)利用创建好的词袋,把所有训练用户的兴趣点信息从文字格式转换到BOW格 式; (3)将BOW格式的训练数据填入LDA模型来进行训练; 步骤四、预测且细分新用户: (1)对于每一位新用户,按照步骤二的方法构建该用户的兴趣点属性字典; (2)按照步骤三的方法将该用户的兴趣点从文字格式转化为BOW格式,再将BOW格 式的训练数据填入训练好的LDA模型; (3) LDA模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。 该专利技术主要包括两个大的步骤:构建模型和用户细分,具体步骤如下: 步骤一、构建基于地理位置和兴趣点信息的潜在主题抽取模型LDA模型:步骤 S11.获取用户移动终端所在的地理位置,根据地理位置的定位数据得到对应电子地图周边 的兴趣点信息,并将该兴趣点信息转化为文本形式;步骤S12.采用潜在主题抽取算法将该 文本形式的兴趣点信息转化为兴趣点主题,得到潜在主题抽取模型;步骤S13.利用训练数 据依次采用上述步骤Sll和S12训练潜在主题抽取模型; 步骤二、根据新用户的地理位置和兴趣点信息对新用户进行细分:步骤S21.对于 新用户,获取该新用户移动终端所在的地理位置,根据地理位置的定位数据得到对应电子 地图周边的兴趣点信息,并将该兴趣点信息转化为文本形式;S22.将新用户的文本形式的 兴趣点信息填入训练好的潜在主题抽取模型,潜在主题抽取模型按照该新用户的兴趣点信 息输出跟该用户相关的各种主题标签及其权重;S23.根据新用户的主题标签及其权重对 该新用户进行细分。 本专利技术主要包括两部分,第一,基于用户的POI信息,利用LDA算法进行建模。第 二,如何运用训练好的模型来预测并且细分用户。 本文档来自技高网...

【技术保护点】
一种基于地理位置和兴趣点信息的用户细分方法,具体包括如下步骤:步骤一、选择一组用户作为训练用户,根据其中每个用户的地理位置得到其周边的兴趣点信息,并将该兴趣点信息转化为文本形式;步骤二、构建用户兴趣点属性字典:将所有训练用户的兴趣点信息集合在用户属性字典中;步骤三、LDA模型训练:(1)基于构建好的用户属性字典,创建一个代表整个训练数据集的词袋BOW;(2)利用创建好的词袋,把所有训练用户的兴趣点信息从文字格式转换到BOW格式;(3)将BOW格式的训练数据填入LDA模型来进行训练;步骤四、预测且细分新用户:(1)对于每一位新用户,按照步骤二的方法构建该用户的兴趣点属性字典;(2)按照步骤三的方法将该用户的兴趣点从文字格式转化为BOW格式,再将BOW格式的训练数据填入训练好的LDA模型;(3)LDA 模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。

【技术特征摘要】
1. 一种基于地理位置和兴趣点信息的用户细分方法,具体包括如下步骤: 步骤一、选择一组用户作为训练用户,根据其中每个用户的地理位置得到其周边的兴 趣点信息,并将该兴趣点信息转化为文本形式; 步骤二、构建用户兴趣点属性字典;将所有训练用户的兴趣点信息集合在用户属性字 m巾. 步骤S、LDA模型训练; (1) 基于构建好的用户属性字典,创建一个代表整个训练数据集的词袋BOW ; (2) 利用创建好的词袋,把所有训练用户的兴趣点信息从文字格式转换到BOW格式; (3) 将BOW格式的训练数据填入LDA模型来进行训练; 步骤四、预测且细分新用户: (1) 对于每一位新用户,按照步骤二的方法构建该用户的兴趣点属性字典; (2) 按照步骤S的方法将该用户的兴趣...

【专利技术属性】
技术研发人员:张一文
申请(专利权)人:成都品果科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1