【技术实现步骤摘要】
一种基于微博标签的人群画像系统和方法
本专利技术属于无线通信网络
,具体涉及一种基于微博标签的人群画像系统和方法。
技术介绍
微博是现阶段最热门的社交媒体,以新浪、腾讯为代表的国内微博网站的用户规模在近几年得到飞速增长。以新浪微博为例,截止到2012年底,其注册用户数已经超过5亿,而每天的活跃用户数就已经突破4620万人。随着微博的快速发展,和其相关的各种应用和服务正在创造越来越多的商业价值。让用户使用个性标签是新浪和腾讯等主流微博网站提供的一个重要服务,用户可以使用这些标签来描述自己的身份、职业、兴趣、宗教信仰等个人属性,甚至是表达自己的某些观点。作为用户个人属性描述的重要补充,用户的标签连同个人信息页面的其它内容都能作为浏览者详细了解该用户的重要信息来源。而深入了解一个用户则对很多现实的应用有所帮助,如特殊用户搜索、好友推荐、在线广告和企业的客户关系管理等等。因此,为每个微博用户推荐一组能够准确描述用户相关属性的标签用于刻画不同用户群体的特征,或称作用户人群画像,具有重要意义。现有的社会标注系统大都针对网络物体的标注,如Flickr网站中的图片或者URL ...
【技术保护点】
一种基于微博标签的用户人群画像系统,其特征在于,该系统包含微博用户标签推荐模块和标签主题聚类模块两个核心技术模块;其中:所述微博用户标签推荐模块,分别利用微博用户的同质性和标签的共现性关联来产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户推荐;所述标签主题聚类模块,通过对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,从而判断出用户所属的人群以及度量用户间的差异性距离用以刻画不同用户群体的特征,实现用户人群画像。
【技术特征摘要】
1.一种基于微博标签的用户人群画像方法,其特征在于其通过为微博用户推荐标签来精准刻画用户的属性特征,并利用LDA工具分析用户标签的主题分布后准确地判断用户所属的人群;具体步骤如下:(1)分别利用微博用户的同质性和标签的共现性关联来推荐产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户标签推荐;(2)对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,由此判断用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征,实现用户人群画像;其中:步骤(1)中消除候选标签中的冗余标签步的方法具体如下:通过建立中文知识图谱,将百科类网站的词条映射成语义网络中的结点,词条间的超链接映射出网络边,使得网络的拓扑结构可以度量标签的语义范畴,从而判断出候选推荐的标签中是否存在语义冗余。2.根据权利要求1所述的基于微博标签的用户人群画像方法,其特征在于,步骤(...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。