一种微博异构信息的用户画像构建方法技术

技术编号:29156798 阅读:48 留言:0更新日期:2021-07-06 22:56
本发明专利技术涉及一种微博异构信息的用户画像构建方法,属于机器学习和深度学习领域。该方法包括:1)收集合适的文本及图像数据,分别训练好图像及文本分类网络;2)使用爬虫技术爬取微博的文本及图像信息,使用构建好的分类网络得到标签,即user‑topic矩阵,将其作为用户画像;3)对user‑topic使用模糊聚类,发现用户社区;4)使用TF‑IDF对用户分类好的微博进行关键词发现,得到topic‑item矩阵,使用知识图谱思想计算关联词;5)对用户所属社区进行相似度用户计算,选取相似度较高的用户重复步骤4)的方法,并根据词频阈值选取关键词作为内容补充推荐。本发明专利技术能为用户推荐相似度较高的用户。

【技术实现步骤摘要】
一种微博异构信息的用户画像构建方法
本专利技术属于机器学习和深度学习领域,涉及一种微博异构信息的用户画像构建方法。
技术介绍
在大数据时代,随着数据量的急剧增加,微博用户面临着信息爆炸带来的问题,通过建立用户画像了解用户特征从而进行社区发现及社区推荐变得尤为重要。微博数据存在着大量的异构信息,例如图片视频及文字,通过深度学习方法有效提取这些信息,将其作为用户特征信息组建为用户画像,可以方便对用户进行社区发现及商品推荐。现有的微博用户画像建立方式主要通过TF-IDF及LDA方法提取用户关键词,无法简介描述用户兴趣画像,提取的关键词由于维度过多难以有效利用于推荐。近年来,随着深度学习的发展,文本分类与图像分类技术愈发成熟,收集合适的语料库以及图像数据集分别训练文本及图像分类模型,采集用户的微博文本以及图像数据进行分类,得到用户-主题(user-topic)矩阵。该方法虽然能减少画像构建的兴趣维度同时简洁有效地描述用户画像,但是缺乏可解释性。因此,本专利技术亟需一种能够根据微博异构信息进行社区发现以及内容推荐的用户图像构建方法本文档来自技高网...

【技术保护点】
1.一种微博异构信息的用户画像构建方法,其特征在于,分别构建文本及图像分类网络,对于微博用户内容进行主题分类,构建好用户画像;对于用户画像,使用聚类方法及知识图谱对用户进行内容推荐以及社区发现;/n该方法具体包括以下步骤:/nS1:数据收集:收集合适的文本及图像数据,获取用户微博的文本及图像信息;/nS2:数据增强;/nS3:模型训练:分别训练图像及文本分类网络;/nS4:用户画像构建;使用训练好的分类网络分类得到兴趣标签,并将其加入user-topic矩阵,得到用户画像;/nS5:对于不同类的微博,采用TF-IDF算法及词性筛选提取关键词,得到细粒度Topic-item矩阵;/nS6:采用知...

【技术特征摘要】
1.一种微博异构信息的用户画像构建方法,其特征在于,分别构建文本及图像分类网络,对于微博用户内容进行主题分类,构建好用户画像;对于用户画像,使用聚类方法及知识图谱对用户进行内容推荐以及社区发现;
该方法具体包括以下步骤:
S1:数据收集:收集合适的文本及图像数据,获取用户微博的文本及图像信息;
S2:数据增强;
S3:模型训练:分别训练图像及文本分类网络;
S4:用户画像构建;使用训练好的分类网络分类得到兴趣标签,并将其加入user-topic矩阵,得到用户画像;
S5:对于不同类的微博,采用TF-IDF算法及词性筛选提取关键词,得到细粒度Topic-item矩阵;
S6:采用知识图谱思想,利用知识关联,查找关键词的相似词;
S7:对于user-topic矩阵,使用模糊聚类方法,得到不同类的社区,为微博用户进行社区发现;
S8:对用户所在社区进行社区用户相似度计算,选取相似度高的用户计算步骤S6的关键词子集,求所有相似用户的关键词子集的公共集作为步骤S6的补充推荐。


2.根据权利要求1所述的用户画像构建方法,其特征在于,步...

【专利技术属性】
技术研发人员:袁正午彭宪穅
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1