【技术实现步骤摘要】
一种微博异构信息的用户画像构建方法
本专利技术属于机器学习和深度学习领域,涉及一种微博异构信息的用户画像构建方法。
技术介绍
在大数据时代,随着数据量的急剧增加,微博用户面临着信息爆炸带来的问题,通过建立用户画像了解用户特征从而进行社区发现及社区推荐变得尤为重要。微博数据存在着大量的异构信息,例如图片视频及文字,通过深度学习方法有效提取这些信息,将其作为用户特征信息组建为用户画像,可以方便对用户进行社区发现及商品推荐。现有的微博用户画像建立方式主要通过TF-IDF及LDA方法提取用户关键词,无法简介描述用户兴趣画像,提取的关键词由于维度过多难以有效利用于推荐。近年来,随着深度学习的发展,文本分类与图像分类技术愈发成熟,收集合适的语料库以及图像数据集分别训练文本及图像分类模型,采集用户的微博文本以及图像数据进行分类,得到用户-主题(user-topic)矩阵。该方法虽然能减少画像构建的兴趣维度同时简洁有效地描述用户画像,但是缺乏可解释性。因此,本专利技术亟需一种能够根据微博异构信息进行社区发现以及内容推 ...
【技术保护点】
1.一种微博异构信息的用户画像构建方法,其特征在于,分别构建文本及图像分类网络,对于微博用户内容进行主题分类,构建好用户画像;对于用户画像,使用聚类方法及知识图谱对用户进行内容推荐以及社区发现;/n该方法具体包括以下步骤:/nS1:数据收集:收集合适的文本及图像数据,获取用户微博的文本及图像信息;/nS2:数据增强;/nS3:模型训练:分别训练图像及文本分类网络;/nS4:用户画像构建;使用训练好的分类网络分类得到兴趣标签,并将其加入user-topic矩阵,得到用户画像;/nS5:对于不同类的微博,采用TF-IDF算法及词性筛选提取关键词,得到细粒度Topic-item矩 ...
【技术特征摘要】
1.一种微博异构信息的用户画像构建方法,其特征在于,分别构建文本及图像分类网络,对于微博用户内容进行主题分类,构建好用户画像;对于用户画像,使用聚类方法及知识图谱对用户进行内容推荐以及社区发现;
该方法具体包括以下步骤:
S1:数据收集:收集合适的文本及图像数据,获取用户微博的文本及图像信息;
S2:数据增强;
S3:模型训练:分别训练图像及文本分类网络;
S4:用户画像构建;使用训练好的分类网络分类得到兴趣标签,并将其加入user-topic矩阵,得到用户画像;
S5:对于不同类的微博,采用TF-IDF算法及词性筛选提取关键词,得到细粒度Topic-item矩阵;
S6:采用知识图谱思想,利用知识关联,查找关键词的相似词;
S7:对于user-topic矩阵,使用模糊聚类方法,得到不同类的社区,为微博用户进行社区发现;
S8:对用户所在社区进行社区用户相似度计算,选取相似度高的用户计算步骤S6的关键词子集,求所有相似用户的关键词子集的公共集作为步骤S6的补充推荐。
2.根据权利要求1所述的用户画像构建方法,其特征在于,步...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。