一种微博团体的发现方法及装置制造方法及图纸

技术编号：11900928 阅读：70 留言：0更新日期：2015-08-19 12:57

本发明专利技术公开了一种微博团体的发现方法及装置，其中，该方法包括：根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；采用无监督学习方式从兴趣特征向量中确定用户团体信息。本发明专利技术实施例为不同种类的信息建立各自独立的特征信息词典，从用户一定时间段内更新的信息中分词，来与特征信息词典中的词语进行比对，进而确定用户的兴趣特征向量，再通过无监督学习方式来确定用户团体信息，通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体，具有更准确的推广意义，传播力度大大提高，解决了现有问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域，特别是涉及一种微博团体的发现方法及装置。
技术介绍
近年来，以微博为代表的社交网络正成为人们日常交流、获取资讯的新途径，在生活中扮演着越来越重要的角色。与此同时，微博也由于其信息扩散速度快、扩散范围广等特点，成为各微博运营商、互联网公司、广告主进行内容推荐和广告投放的重要平台。同时，在学术界和工业界，针对微博用户行为、网络结构的研宄和应用也在蓬勃发展。传统的内容推荐、广告投放通常采用无差别的方式，即不考虑用户之间影响力和兴趣的差异，直接将热门的信息和广告等推送给所有用户，这样的做法未考虑用户之间的差异，投放和推送的效果往往不尽如人意。近年来，出现了针对用户群体的精准推荐技术，即利用用户之间的跟随/粉丝关系构建用户网络，将热点内容推送至网络中影响力较大的用户（如粉丝数较多的用户），利用这些用户来影响其他用户，从而实现信息的扩散和传播，提高了内容推荐和广告推送的有效性。然而，这类方法存在着局限性：这些方法的本质是以用户之间的跟随/粉丝关系来构建用户关系网络，而跟随/粉丝关系往往受到"名人效应"或"僵尸粉丝"的影响，因此表面的跟随/粉丝关系并不能说明用户之间存在同样的兴趣爱好。也就是说，通过这类方法构建的跟随/粉丝关系网络不等价于用户兴趣网络，这就造成待推荐的信息内容主题和用户网络之间的不匹配，无法达到最好的内容推荐和推送效果；同时，部分具有相同兴趣的用户之间由于并不具有跟随/粉丝关系，会被这类方法所遗漏，从而造成内容推荐、广告营销不能达到预期的效果。
技术实现思路
本专利技术提供一种微...

【技术保护点】
一种微博团体的发现方法，其特征在于，包括：根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：李扬曦，杜翠兰，佟玲玲，李睿，王晶，刘洋，查奇文，秦韬，付戈，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人