一种微博团体的发现方法及装置制造方法及图纸

技术编号:11900928 阅读:70 留言:0更新日期:2015-08-19 12:57
本发明专利技术公开了一种微博团体的发现方法及装置,其中,该方法包括:根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;采用无监督学习方式从兴趣特征向量中确定用户团体信息。本发明专利技术实施例为不同种类的信息建立各自独立的特征信息词典,从用户一定时间段内更新的信息中分词,来与特征信息词典中的词语进行比对,进而确定用户的兴趣特征向量,再通过无监督学习方式来确定用户团体信息,通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体,具有更准确的推广意义,传播力度大大提高,解决了现有问题。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,特别是涉及一种微博团体的发现方法及装置
技术介绍
近年来,以微博为代表的社交网络正成为人们日常交流、获取资讯的新途径,在生 活中扮演着越来越重要的角色。与此同时,微博也由于其信息扩散速度快、扩散范围广等特 点,成为各微博运营商、互联网公司、广告主进行内容推荐和广告投放的重要平台。同时,在 学术界和工业界,针对微博用户行为、网络结构的研宄和应用也在蓬勃发展。 传统的内容推荐、广告投放通常采用无差别的方式,即不考虑用户之间影响力和 兴趣的差异,直接将热门的信息和广告等推送给所有用户,这样的做法未考虑用户之间的 差异,投放和推送的效果往往不尽如人意。近年来,出现了针对用户群体的精准推荐技术, 即利用用户之间的跟随/粉丝关系构建用户网络,将热点内容推送至网络中影响力较大的 用户(如粉丝数较多的用户),利用这些用户来影响其他用户,从而实现信息的扩散和传 播,提高了内容推荐和广告推送的有效性。 然而,这类方法存在着局限性:这些方法的本质是以用户之间的跟随/粉丝关系 来构建用户关系网络,而跟随/粉丝关系往往受到"名人效应"或"僵尸粉丝"的影响,因此 表面的跟随/粉丝关系并不能说明用户之间存在同样的兴趣爱好。也就是说,通过这类方 法构建的跟随/粉丝关系网络不等价于用户兴趣网络,这就造成待推荐的信息内容主题和 用户网络之间的不匹配,无法达到最好的内容推荐和推送效果;同时,部分具有相同兴趣的 用户之间由于并不具有跟随/粉丝关系,会被这类方法所遗漏,从而造成内容推荐、广告营 销不能达到预期的效果。
技术实现思路
本专利技术提供一种微博团体的发现方法及装置,用以解决现有技术中,仅通过跟随/ 粉丝关系构建用户关系网络,然而这类方法构建的关系网络不等价于用户兴趣网络,这就 造成待推荐的信息内容主题和用户网络之间的不匹配,无法达到最好的内容推荐和推送效 果的问题。 为解决上述技术问题,一方面,本专利技术提供一种微博团体的发现方法,包括:根据 微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元 信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量; 采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。 进一步,构建特征信息词典包括:按照如下公式计算当前语料库中待生成词典的 各词语的IDF值,所述IDF值的计算公式为【主权项】1. 一种微博团体的发现方法,其特征在于,包括: 根据微博用户的元信息及微博内容,构建相互独立的特征信息词典; 从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词 语确定用户的兴趣特征向量; 采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。2. 如权利要求1所述的发现方法,其特征在于,构建特征信息词典包括: 按照如下公式计算当前语料库中待生成词典的各词语的IDF值,所述IDF值的计算公 式为;IDF=log^,其中,N表示当前整个语料库中的信息总条数,rid表示当前词语出现过 的信息条数; 保留计算得到的IDF值超过预定IDF值的词语,并将其添加到所述当前语料库对应的 词典中,W构建所述特征信息词典。3. 如权利要求2所述的发现方法,其特征在于,从预定时间段内用户的元信息和微博 内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量,包括: 从数据集中统计当前用户的数值型特征; 将用户的元信息及微博内容对应的词语分别映射到对应的词典上,并使用TFIDF值加 权,其中,分词W的TFIDF值计算方式如下;TFlDF(w)=TF*1DF= ^ *log告其中,C,表 示词语W出现的次数,C表示当前整个语料库总的词语个数; 将所述数值型特征和得到的所述TFIDF值进行拼接,W得到用户的兴趣特征向量。4. 如权利要求1至3中任一项所述的发现方法,其特征在于,采用无监督学习方式从所 述兴趣特征向量中确定用户团体信息之后,还包括: 通过预定行为的权重值构建用户互动关系网络,其中,所述预定行为包括:跟随关系行 为、粉丝关系行为、转发关系行为; 在所述用户互动关系网络中,通过网络结构分析的方法对所述用户团体信息中的用户 进行角色识别,W确定整个团体中每个用户的重要值; 根据所述每个用户的重要值确定微博扩散策略。5. 如权利要求4所述的发现方法,其特征在于,对所述用户团体信息中的用户进行角 色识别,W确定整个团体中每个用户的重要值包括: 计算整个团体中每个用户节点的中屯、性,其中,所述中屯、性包括:浓度中屯、性、亲近中 屯、性和居间中屯、性; 通过迭代的方式确定所述每个用户节点的加权化geRank值; 根据所述中屯、性和所述加权化geRank值确定用户的重要值。6. 如权利要求5所述的发现方法,其特征在于,通过如下公式确定用户的重要程度: S(a) =aCdegree(a) + 0Ccioseness(a) + 丫Cbetweenness(a) + 5wPR(a); 其中,Cdegtee(a)为用户的频度中屯、性,Cuweness(a)为用户的亲近中屯、性,Cbet,eenness(a)为 用户的居间中屯、性,wPR(a)为一个时间窗内用户的活跃值,a、P、丫和5为调节各权重 的系数。7. -种微博团体的发现装置,其特征在于,包括: 词典构建模块,用于根据微博用户的元信息及微博内容,构建相互独立的特征信息词 化. 特征确定模块,用于从预定时间段内用户的元信息和微博内容中分词,并基于特征信 息词典和提取到的词语确定用户的兴趣特征向量; 学习模块,用于采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。8.如权利要求7所述的发现装置,其特征在于,所述词典构建模块包括: 计算单元,用于按照如下公式计算当前语料库中待生成词典的各词语的IDF值,所述 IDF值的计算公式为:IDF=log^,其中,N表示当前整个语料库中的信息总条数,rid表示 当前词语出现过的信息条数; 词典构建单元,用于保留计算得到的IDF值超过预定IDF值的词语,并将其添加到所述 当前语料库对应的词典中,W构建所述特征信息词典。9.如权利要求8所述的发现装置,其特征在于,所述特征确定模块包括: 统计单元,用于从数据集中统计当前用户的数值型特征; 映射单元,用于将用户的元信息及微博内容对应的词语分别映射到对 应的词典上,并使用TFIDF值加权,其中,分词W的TFIDF值计算方式如下; TFIDF(w) =TF*IDF= ^ *log告,其中,C,表示词语W出现的次数,C表示当前整个语料 库总的词语个数; 特征确定单元,用于将所述数值型特征和得到的所述TFIDF值进行拼接,W得到用户 的兴趣特征向量。10.如权利要求7至9中任一项所述的发现装置,其特征在于,还包括: 网络构建模块,用于通过预定行为的权重值构建用户互动关系网络,其中,所述预定行 为包括;跟随关系行为、粉丝关系行为、转发关系行为; 角色识别模块,用于在所述用户互动关系网络中,通过网络结构分析方法对所述用户 团体信息中的用户进行角色识别,W确定整个团体中每个用户的重要值; 策略确定模块,用于根据所述每个用户的重要值确本文档来自技高网...

【技术保护点】
一种微博团体的发现方法,其特征在于,包括:根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:李扬曦杜翠兰佟玲玲李睿王晶刘洋查奇文秦韬付戈
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1