社交网络群体识别方法和系统技术方案

技术编号:10420881 阅读:157 留言:0更新日期:2014-09-12 11:47
本发明专利技术涉及一种社交网络群体识别方法和系统,其中方法包括:获取社交网络中多个待识别的用户以及每个待识别用户对应的用户消息;用户消息包括消息内容和感染状态;对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定各个用户消息所属的主题以及各个用户消息属于对应主题的概率;对于每个待识别的用户,根据各个用户消息属于对应主题的概率,以及各个用户消息中的感染状态,计算各个主题被待识别的用户感染的概率,从而根据各个主题被待识别的用户感染的概率,能够确定各个主题对应的用户群体,能够对导致消息传播的范围、路径和影响进行预测,进而对消息的传播进行有效的控制。

【技术实现步骤摘要】
社交网络群体识别方法和系统
本专利技术涉及通信
,尤其涉及一种社交网络群体识别方法和系统。
技术介绍
现有技术中,在web1.0时期,网络中消息的传播模式主要为:发布者编辑发布消息,大众浏览消息。而用户与用户之间的交互活动很少,因此,消息传播的范围、路径和影响是可以准确预测的。然而,在web2.0时期,随着微博、QQ、人人网、Facebook等社交网络的发展,用户与用户之间的交互活动大量增加,每个用户都可以成为消息的传播源,导致消息传播的范围、路径和影响难以预测,难以从社交网络中识别出使得消息广泛传播的关键用户群体,从而难以对消息的传播进行有效的控制。
技术实现思路
本专利技术提供一种社交网络群体识别方法和系统,用于解决现有技术中难以从社交网络中识别出使得消息广泛传播的关键用户群体的问题。本专利技术的第一个方面是提供一种社交网络群体识别方法,包括:获取社交网络中多个待识别的用户以及每个待识别用户对应的用户消息;所述用户消息包括消息内容和感染状态;对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定所述各个用户消息所属的主题以及所述各个用户消息属于对应主题的概率;对于每个待识别的用户,根据所述各个用户消息属于对应主题的概率,以及所述各个用户消息中的感染状态,计算各个主题被所述待识别的用户感染的概率;对于每个待识别的用户,根据各个主题被所述待识别的用户感染的概率,确定所述待识别的用户所属的与主题对应的用户群体。本专利技术的另一个方面提供一种社交网络群体识别系统,包括:获取模块,用于获取社交网络中多个待识别的用户以及每个待识别用户对应的用户消息;所述用户消息包括消息内容和感染状态;确定模块,用于对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定所述各个用户消息所属的主题以及所述各个用户消息属于对应主题的概率;计算模块,用于对于每个待识别的用户,根据所述各个用户消息属于对应主题的概率,以及所述各个用户消息中的感染状态,计算各个主题被所述待识别的用户感染的概率;所述确定模块,还用于对于每个待识别的用户,根据各个主题被所述待识别的用户感染的概率,确定所述待识别的用户所属的与主题对应的用户群体。本专利技术中,通过获取社交网络中多个待识别的用户以及每个待识别用户对应的用户消息;用户消息包括消息内容和感染状态;对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定各个用户消息所属的主题以及各个用户消息属于对应主题的概率;对于每个待识别的用户,根据各个用户消息属于对应主题的概率,以及各个用户消息中的感染状态,计算各个主题被待识别的用户感染的概率,从而根据各个主题被待识别的用户感染的概率,能够确定各个主题对应的用户群体,能够对导致消息传播的范围、路径和影响进行预测,进而对消息的传播进行有效的控制。附图说明图1为本专利技术提供的社交网络群体识别方法一个实施例的流程图;图2为本专利技术提供的社交网络群体识别方法又一个实施例的流程图;图3为关系网络的示意图;图4为本专利技术提供的社交网络群体识别系统一个实施例的结构示意图;图5为本专利技术提供的社交网络群体识别系统又一个实施例的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术提供的社交网络群体识别方法一个实施例的流程图,如图1所示,包括:101、获取社交网络中多个待识别的用户以及每个待识别用户对应的用户消息,用户消息包括消息内容和感染状态。本专利技术提供的社交网络群体识别方法的执行主体可以为社交网络群体识别系统,社交网络群体识别系统具体为位于社交网络中服务器上的软件工具。由于社交网络中的用户数量极大,用户消息的数量也极大,社交网络群体识别系统难以获取所有用户对应的用户消息进行分析,而社交网络中影响较大的用户一般为粉丝数、被关注数和消息发送次数较多的用户。因此,社交网络群体识别系统可以根据用户的粉丝数、被关注数或者消息发送次数等来选择待识别的用户。例如,社交网络群体识别系统可以选择粉丝数大于预设粉丝数的用户作为待识别的用户,或者,选择被关注数大于预设被关注数的用户作为待识别的用户。社交网络群体识别系统获取待识别的用户后,可以利用社交网络中的爬虫工具或者社交网站提供的应用编程接口(ApplicationProgrammingInterface,API)来获取用户转载、发送和评论的所有消息。结合所有待识别的用户转载、发送和评论的所有消息,得到每个待识别用户对应的用户消息。用户发送的消息可以包括用户发送给其他用户的消息以及用户转发给其他用户的消息。例如,当待识别用户包括用户A、用户B和用户C,且用户A转载、发送或评论的消息包括:消息a和消息b;用户B转载、发送或评论的消息包括:消息c和消息d;用户C转载、发送或评论的消息包括:消息e。则此时用户A对应的用户消息包括:消息a、消息b、消息c、消息d和消息e。其中,感染状态指的是用户是否转载、发送和评论过所述消息,若用户转载、发送或评论过所述消息,则感染状态为1;若用户未转载、未发送且未评论过所述消息,则感染状态为0。例如,消息a和消息b为用户A转载、发送或评论的消息,因此消息a和消息b中的感染状态为1;消息c、消息d和消息e为用户B或用户C转载、发送或评论的消息,因此消息c、消息d和消息e中的感染状态为0。其中,消息内容指的是用户转载或发送的所述消息的具体内容。若所述消息为用户评论的消息,则消息内容除了包括所述消息的具体内容外,还包括用户对所述消息所进行的评论以及其他用户之前对所述消息所进行的评论。102、对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定各个用户消息所属的主题以及各个用户消息属于对应主题的概率。具体地,社交网络群体识别系统可以获取消息内容中的所有词汇,根据消息内容中的词汇来确定消息所属的主题。其中,主题具体可以指消息内容的主要意思,例如,主题可以为:财经、政治、体育、科学和地理等等,主题的数量和种类可以由社交网络群体识别系统预先设置。当消息内容的主要意思涉及两种或多种主题时,可以根据消息内容中各个主题对应的词汇数量来确定消息属于对应主题的概率。103、对于每个待识别的用户,根据各个用户消息属于对应主题的概率,以及各个用户消息中的感染状态,计算各个主题被待识别的用户感染的概率。104、对于每个待识别的用户,根据各个主题被待识别的用户感染的概率,确定待识别的用户所属的与主题对应的用户群体。具体地,假设用户对应的用户消息涉及到的主题有3种,分别为:财经、政治和体育,则根据各个主题被待识别的用户感染的概率,确定待识别的用户所属的与主题对应的用户群体的其中一种可选的方式为:若主题“财经”被用户感染的概率超值预设财经阈值,则确定所述用户属于与“财经”对应的用户群体;若主题“政治”被用户感染的概率超值预设政治阈值,则确定所述用户属于与“政治”对应的用户群体;若主题“体育”被用户感染的概率超值预本文档来自技高网...
社交网络群体识别方法和系统

【技术保护点】
一种社交网络群体识别方法,其特征在于,包括:获取社交网络中多个待识别的用户以及每个待识别用户对应的用户消息;所述用户消息包括消息内容和感染状态;对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定所述各个用户消息所属的主题以及所述各个用户消息属于对应主题的概率;对于每个待识别的用户,根据所述各个用户消息属于对应主题的概率,以及所述各个用户消息中的感染状态,计算各个主题被所述待识别的用户感染的概率;对于每个待识别的用户,根据各个主题被所述待识别的用户感染的概率,确定所述待识别的用户所属的与主题对应的用户群体。

【技术特征摘要】
1.一种社交网络群体识别方法,其特征在于,包括:获取社交网络中多个待识别的用户以及每个待识别用户对应的用户消息;所述用户消息包括消息内容和感染状态;对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定所述各个用户消息所属的主题以及所述各个用户消息属于对应主题的概率;对于每个待识别的用户,根据所述各个用户消息属于对应主题的概率,以及所述各个用户消息中的感染状态,计算各个主题被所述待识别的用户感染的概率;对于每个待识别的用户,根据各个主题被所述待识别的用户感染的概率,确定所述待识别的用户所属的与主题对应的用户群体;其中,所述对于每个待识别的用户,根据所述各个用户消息属于对应主题的概率,以及所述各个用户消息中的感染状态,计算各个主题的消息被所述待识别的用户感染的概率,包括:对于每个待识别的用户,针对每个主题,根据所述各个用户消息属于对应主题的概率,以及所述各个用户消息中的感染状态,计算所述各个用户消息中所述主题被所述待识别的用户感染的概率;根据所述各个用户消息中所述主题被所述待识别的用户感染的概率,确定所述主题被所述待识别的用户感染的概率;所述对于每个待识别的用户,根据各个主题被所述待识别的用户感染的概率,确定所述待识别的用户所属的与主题对应的用户群体,包括:对于每个待识别的用户,获取所述待识别用户的关注对象、好友列表以及消息发送对象,构建关系网络;针对每个主题,根据所述主题被所述待识别的用户感染的概率,确定所述关系网络中具有连接关系的任意两个待识别用户之间的连接距离;若具有连接关系的两个待识别用户之间的连接距离小于预设值,则确定所述两个待识别用户属于所述主题对应的用户群体。2.根据权利要求1所述的方法,其特征在于,所述对于每个待识别的用户,根据各个待识别用户对应的用户消息中的消息内容,确定所述各个用户消息所属的主题以及所述各个用户消息属于对应主题的概率,包括:对于每个待识别的用户,对所述用户消息中的消息内容进行分词,获取所述用户消息中的关键词以及所述关键词的词频;根据所述关键词查询预设的词汇表,确定所述用户消息所属的主题;根据所述关键词的词频,确定所述用户消息属于对应主题的概率。3.根据权利要求1所述的方法,其特征在于,所述对于每个待识别的用户,根据各个主题被所述待识别的用户感染的概率,确定所述待识别的用户所属的与主题对应的用户群体之后,还包括:获取待分析消息的消息内容;根据所述待分析消息的消息内容,确定所述待分析消息所属的主题以及属于对应主题的概率;获取所述待分析消息所属的主题中...

【专利技术属性】
技术研发人员:怀进鹏武南南李建欣张日崇
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1