一种兴趣识别方法、设备以及数据分析方法技术

技术编号:13193345 阅读:61 留言:0更新日期:2016-05-11 20:03
本申请公开了一种基于社交网络的兴趣识别方法,包括:接收关于一用户的兴趣的查询请求;从社交网络收集与该用户相关的数据;根据预先确定且定期更新的兴趣分类模型,计算所收集的数据中的每一消息属于某一主题分类的概率;根据所述消息的发送时间来计算所述消息的第一权重;通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘,并进行累加,从而得出所述用户对于某一主题分类的兴趣指数值;以及根据所述兴趣指数值,分析该用户的兴趣分布。本申请还公开了一种兴趣识别设备与数据分析方法。

【技术实现步骤摘要】

本专利技术涉及计算机领域,并具体涉及。
技术介绍
随着电子商务规模的不断扩大,商品的种类和数量快速增长,客户或潜在客户的 群体规模庞大。客户需要花费大量的时间才能选购到心意商品,而企业传统识别潜在客户 的方法能力有限。因此,对用户进行兴趣分析是管理复杂的客户关系、改善用户购物体验的 一项重要工作。 用户兴趣是进行网络营销、电子商务推荐和个性化信息检索等个性化信息服务的 关键,它反映了用户的个人特征和兴趣偏好,是进行个性化信息服务的重要依据。 由于用户的即时兴趣受到生活习惯、时间、地点、天气、工作计划及其他周围环境 因素的影响,其预测工作也变得非常复杂。并且,导致预测工作更为困难的是,针对某一用 户的即时兴趣是完全个性化的,无法以其他个体的交易数据作为经验历史数据来借鉴。
技术实现思路
社交网络近年来蓬勃发展,已成为人们信息发表和关注的一个重要线上媒体。而 用户发表和关注信息直接或间接显示其兴趣和关注点等特征。因此,作为一种新兴的外部 数据参考,基于社交网络的数据分析是获取用户兴趣爱好的一个重要突破点。 根据本申请的一个方面,提供了一种基于社交网络的兴趣识别方法,包括:接收关 于一用户的兴趣的查询请求;从社交网络收集与该用户相关的数据,所述数据包括该用户 发表的消息以及该用户在所述社交网络中所关注的对象发表的消息;根据预先确定且定期 更新的兴趣分类模型,计算所收集的数据中的每一消息属于某一主题分类的概率;根据所 述消息的发送时间来计算所述消息的第一权重;通过将所述属于某一主题分类的概率与包 括所述第一权重的权重值进行相乘,并进行累加,从而得出所述用户对于某一主题分类的 兴趣指数值;以及根据所述兴趣指数值,分析该用户的兴趣分布;其中,所述对于某一主题 分类的兴趣指数值与用户对该主题分类的兴趣度成正比。 在上述兴趣识别方法中,所述第一权重设置为当前日期与所述发送时间的天数差 的自然对数的指数与时间调剂因子两者的乘积,所述时间调剂因子可被调节,其取值范围 为大于0小于1。 在上述兴趣识别方法中,所述权重值还包括与消息的发送方相关的第二权重。 在上述兴趣识别方法中,所述兴趣分类模型根据如下的步骤来预先确定:(a)获 取训练数据并对所述训练数据进行标注;(b)将所述训练数据转换为特征向量集合;以及 (c)识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度,从而生成基于文 本的兴趣分类模型。 在上述兴趣识别方法中,步骤(a)包括:使用网络爬虫从数据源处收集页面数据; 对所收集的页面数据进行文本数据的抽取;设置若干个兴趣类别;以及为所抽取的每一份 文本数据标注一标签,所述标签的内容为所述若干个兴趣类别中的至少一个类别。 在上述兴趣识别方法中,步骤(b)包括:将所述文本数据按照一定规范切分成词 序列;对所述词序列标注词性,并去除与兴趣识别无关的一些词;为所述词序列进行编码, 并转换空间向量模型;以及根据所述空间向量模型,进行特征的选择,从而得到特征向量的 集合。 在上述兴趣识别方法中,所述社交网络为微博。 在上述兴趣识别方法中,所述数据源为门户网站、论坛以及微博,并且其中,对于 门户网站和论坛,所抽取的文本为标题、正文、发表时间和文档标签,而对于微博,所抽取的 文本为正文和发表时间。 在上述兴趣识别方法中,去除与兴趣识别无关的一些词包括:去除介词、代词、副 词以及连词;以及去除停用词,所述停用词为实际含义较少、对判断文章内容作用不大的词 语。 根据本申请的另一个方面,提供了一种基于社交网络的兴趣识别设备,包括:接收 装置,用于接收关于一用户的兴趣的查询请求;收集装置,用于从社交网络收集与该用户相 关的数据,所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发 表的消息;第一计算装置,用于根据预先确定且定期更新的兴趣分类模型,计算所收集的数 据中的每一消息属于某一主题分类的概率;第二计算装置,用于根据所述消息的发送时间 来计算所述消息的第一权重;第三计算装置,用于通过将所述属于某一主题分类的概率与 包括所述第一权重的权重值进行相乘,并进行累加,从而得出所述用户对于某一主题分类 的兴趣指数值;以及分析装置,用于根据所述兴趣指数值,分析该用户的兴趣分布;其中, 所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。 在上述兴趣识别设备中,所述第二计算装置配置成计算当前日期与所述发送时间 的天数之间差的自然对数的指数,并将其与时间调剂因子相乘,其中,所述时间调剂因子可 被调节,取值范围为大于〇小于1。 在上述兴趣识别设备中,所述权重值还包括与消息的发送方相关的第二权重。 上述兴趣识别设备还可包括:获取装置,用于获取训练数据并对所述训练数据进 行标注;转换装置,用于将所述训练数据转换为特征向量集合;以及识别装置,用于识别所 述特征向量集合中的特征并量化该特征对主题分类的贡献度,从而生成基于文本的兴趣分 类模型。 在上述兴趣识别设备中,所述获取装置包括:第一单元,用于使用网络爬虫从数据 源处收集页面数据;第二单元,用于对所收集的页面数据进行文本数据的抽取;第三单元, 用于设置若干个兴趣类别;以及第四单元,用于为所抽取的每一份文本数据标注一标签,所 述标签的内容为所述若干个兴趣类别中的至少一个类别。 在上述兴趣识别设备中,所述转换装置包括:第五单元,用于将所述文本数据按照 一定规范切分成词序列;第六单元,用于对所述词序列标注词性,并去除与兴趣识别无关的 一些词;第七单元,用于为所述词序列进行编码,并转换空间向量模型;以及第八单元,用 于根据所述空间向量模型,进行特征的选择,从而得到特征向量的集合。 在上述兴趣识别设备中,所述社交网络为微博。 在上述兴趣识别设备中,所述第二单元配置为当数据源为门户网站和论坛时,抽 取其标题、正文、发表时间和文档标签,而当数据源为微博时,抽取其正文和发表时间。 在上述兴趣识别设备中,第六单元配置为去除介词、代词、副词以及连词;以及去 除停用词,所述停用词代表实际含义较少、对判断文章内容作用不大的词语。 根据本申请的又一方面,提供了一种数据分析方法,包括:在接收关于一用户的兴 趣的查询请求后,从社交网络收集与该用户相关的数据,所述数据包括该用户发表的消息 以及该用户在所述社交网络中所关注的对象发表的消息;根据预先确定且定期更新的兴趣 分类模型,计算所收集的数据中的每一消息属于某一主题分类的概率;根据所述消息的发 送时间来计算所述消息的第一权重;根据所述消息的发送者来计算所述消息的第二权重; 通过将所述属于某一主题分类的概率与包括所述第一权重和所述第二权重的权重值进行 相乘,并进行累加,从而得出所述用户对于某一主题分类的兴趣指数值;以及根据所述兴趣 指数值,分析该用户的兴趣分布;其中,所述对于某一主题分类的兴趣指数值与用户对该主 题分类的兴趣度成正比。 在上述数据分析方法中,所述第一权重设置为当前日期与所述发送时间的天数差 的自然对数的指数与时间调剂因子两者的乘积,所述时间调剂因子可被调节,其取值范围 为大于0小于1。 在上述数据分析方法中,所述兴趣分类模型根据如下的步骤来预先确定:(a)获 取训练数据并对所述训练数据进行标注;(b)将所述训练数本文档来自技高网...

【技术保护点】
一种基于社交网络的兴趣识别方法,包括:接收关于一用户的兴趣的查询请求;从社交网络收集与该用户相关的数据,所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息;根据预先确定且定期更新的兴趣分类模型,计算所收集的数据中的每一消息属于某一主题分类的概率;根据所述消息的发送时间来计算所述消息的第一权重; 通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘,并针对所有消息依次进行累加,从而得出所述用户对于某一主题分类的兴趣指数值;以及根据所述兴趣指数值,分析该用户的兴趣分布;其中,所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯亮尹亚伟张上誉
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1