一种事件传播过程中的用户挖掘方法和装置制造方法及图纸

技术编号:14010786 阅读:33 留言:0更新日期:2016-11-17 11:40
本发明专利技术公开了一种事件传播过程中的用户挖掘方法和装置,用于挖掘出在热点事件传播过程中的重要用户。本发明专利技术的方法中先配置针对的热点事件,然后根据该热点事件建立与热点事件相关的关键词,根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,因此本发明专利技术实施例中可以针对热点事件从网页信息数据库中构建出本地数据库,该本地数据库可以构建有向转发网络,再通过网络的无向化处理可以得到无向转发网络,构建出的无向转发网络也是针对某个热点事件而选取的,从而通过节点的重要性排序,可以确定出热点事件传播的重要用户。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体涉及一种事件传播过程中的用户挖掘方法和装置
技术介绍
社交网络的发展对人类生活有着极大影响,无论是交友,工作还是购物,人们已经习惯依赖社交网络来获取信息。具有高影响力的用户在社交网络中可以作为信息传播源头,促进社交网络上有效信息的传播。为了让信息在网络中传播得更快,范围更广,关键就在于寻找到具有传播影响力的节点。由于网络中总用户数量巨大,网络结构复杂,网络中大部分节点的传播能力极为有限,寻找有高传播影响力的用户一直是一大挑战。随着社交媒体平台的迅猛发展,信息传播已不再局限于传统的传播方式,信息传播的速度和规模也发生了质的变化。研究社交网络上的信息传播,挖掘信息传播过程中具有关键作用的节点(也称为重要节点),对于加速正面信息的传播以及控制负面消息(例如谣言)的传播具有重要作用。现有的重要节点挖掘方法都是寻找用户关注的网络中有影响力的用户,而在某个具体传播的热点事件中,对于该热点事件的传播起较大推动作用的重要节点并不一定就是那些在关注网络上影响力较大的用户,现有的重要节点挖掘方法是基于整个网络结构挖掘出有影响力的用户,而并不是针对某个具体事件,现有的重要节点挖掘方法只能宏观的寻找到关注网络中的有影响力节点,无法寻找到在某一具体事件传播过程中的重要节点。例如,假设在网络中有个重要节点是某个大V微博账户,它虽然是影响力很大的用户,但可能对于某个具体的事件A,若该大V微博账户并没有参与事件A的发布或者转发,那么在事件A的传播过程中,该大V微博账户并不是重要节点,从而无法确定出在事件A的传播过程中的重要节点。
技术实现思路
本专利技术的目的在于提供一种事件传播过程中的用户挖掘方法和装置,用于挖掘出在热点事件传播过程中的重要用户。为了达到上述目的,本专利技术采用这样的如下技术方案:一方面,本专利技术提供一种事件传播过程中的用户挖掘方法,包括:根据预先配置的热点事件获取与所述热点事件相关的关键词;根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。另一方面,本专利技术提供一种事件传播过程中的用户挖掘装置,包括:关键词获取模块,用于根据预先配置的热点事件获取与所述热点事件相关的关键词;数据库构建模块,用于根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;有向转发网络构建模块,用于根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;无向转发网络构建模块,用于将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;重要用户挖掘模块,用于对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。采用上述技术方案后,本专利技术提供的技术方案将有如下优点:在本专利技术实施例中先配置针对的热点事件,然后根据该热点事件建立与热点事件相关的关键词,根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,因此本专利技术实施例中可以针对热点事件从网页信息数据库中构建出本地数据库,该本地数据库可以构建有向转发网络,再通过网络的无向化处理可以得到无向转发网络,因此构建出的无向转发网络也是针对某个热点事件而选取的,从而通过节点的重要性排序,可以确定出热点事件传播的重要用户。由于本专利技术实施例中并不是直接通过网页信息数据库来构建转发网络,所采用的本地数据库也是包括通过具体的关键词爬取才能构建出,本专利技术实施例中挖掘出的重要用户是特指热点事件传播中的重要用户,解决现有技术中无法针对特定事件来挖掘重要用户的问题。附图说明图1为本专利技术实施例提供一种事件传播过程中的用户挖掘方法的流程方框示意图;图2为本专利技术实施例提供的网络爬虫技术爬取网页信息数据库的实现场景示意图;图3为本专利技术实施例提供的API爬取技术爬取网页信息数据库的实现场景示意图;图4-a为本专利技术实施例提供的一种事件传播过程中的用户挖掘装置的组成结构示意图;图4-b为本专利技术实施例提供的一种数据库构建模块的组成结构示意图;图4-c为本专利技术实施例提供的另一种数据库构建模块的组成结构示意图;图4-d为本专利技术实施例提供的一种有向转发网络构建模块的组成结构示意图;图4-e为本专利技术实施例提供的另一种事件传播过程中的用户挖掘装置的组成结构示意图;图4-f为本专利技术实施例提供的另一种事件传播过程中的用户挖掘装置的组成结构示意图;图4-g为本专利技术实施例提供的另一种事件传播过程中的用户挖掘装置的组成结构示意图。具体实施方式本专利技术实施例提供了一种事件传播过程中的用户挖掘方法和装置,用于挖掘出在热点事件传播过程中的重要用户。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本专利技术的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下分别进行详细说明。本专利技术实施例提供的方法可以本文档来自技高网...
一种事件传播过程中的用户挖掘方法和装置

【技术保护点】
一种事件传播过程中的用户挖掘方法,其特征在于,包括:根据预先配置的热点事件获取与所述热点事件相关的关键词;根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。

【技术特征摘要】
1.一种事件传播过程中的用户挖掘方法,其特征在于,包括:根据预先配置的热点事件获取与所述热点事件相关的关键词;根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,包括:通过网络爬虫技术在网页信息数据库中爬取包括所述关键词的发布信息,所述发布信息包括:信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表;判断所述热点事件对应的本地数据库中是否包括所述发布信息,若不包括,将所述发布信息保存到所述本地数据库中;从所述信息转发列表中获取转发所述发布信息的转发信息,通过所述发布信息和所述转发信息构成信息数据,所述转发信息包括:信息转发用户标识、信息转发内容标识、信息转发时间和转发的所述信息发布内容标识;判断所述本地数据库中是否包括所述转发信息,若不包括,将所述转发信息保存到所述本地数据库中。3.根据权利要求2所述的方法,其特征在于,所述根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,还包括:将所述转发信息保存到所述本地数据库中之后,根据所述本地数据库中保存的所有用户标识构建用户搜索列表;通过所述网页信息数据库提供的应用程序编程接口API获取所述用户搜索列表中每个用户标识对应的关注列表和粉丝列表;对所述用户搜索列表、所述关注列表和所述粉丝列表进行合并处理以及去除重复用户标识处理,得到信息待爬取列表;遍历所述信息待爬取列表中的每个待爬取用户标识,通过所述网页信息数据库提供的API获取所述每个待爬取用户标识对应的信息数据;判断所述每个待爬取用户标识对应的信息数据是发布信息还是转发信息;若待爬取用户标识对应的信息数据是发布信息,则判断待爬取用户标识对应的发布信息中是否包括所述关键词,当待爬取用户标识对应的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的发布信息,若没有,将待爬取用户标识对应的发布信息保存到所述本地数据库中;若待爬取用户标识对应的信息数据是转发信息,则判断待爬取用户标识对应的转发信息所转发的发布信息中是否包括所述关键词,当待爬取用户标识对应的转发信息所转发的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的转发信息所转发的发布信息,若没有,将待爬取用户标识对应的转发信息所转发的发布信息保存到所述本地数据库中。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述对所述无向转发网络中N个节点的重要性进行排序,包括:按照度中心性指标计算所述无向转发网络中每个节点的度值,并按照度值大小对所述N个节点进行重要性排序,得到度中心性排序结果;和/或,按照特征向量中心性指标计算所述无向转发网络中每个节点的特征向量中心性,并按照特征向量中心性大小对所述N个节点进行重要性排序,得到特征向量中心性排序结果;和/或,按照K壳中心性指标计算所述无向转发网络中每个节点的K壳值,并按照K壳值大小对所述N个节点进行重要性排序,得到K壳中心性排序结果。5.根据权利要求4所述的方法,其特征在于,所述重要性排序结果,包括:度中心性排序结果、特征向量中心性排序结果和K壳中心性排序结果;所述按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,包括:根据所述度中心性排序结果中度值从大到小排列的N个节点确定第一节点选择集合,所述第一节点选择集合包括:从N个节点中选择的度值从大到小排序的前L个节点,所述L为预置的且小于所述N的自然数;根据所述特征向量中心性排序结果中特征向量中心性从大到小排列的N个节点确定第二节点选择集合,所述第二节点选择集合包括:从N个节点中选择的特征向量中心性从大到小排序的前L个节点;根据所述K壳中心性排序结果中K壳值从大到小排列的N个节点确定第三节点选择集合,所述第三节点选择集合包括:从N个节点中选择的K壳值从大到小排序的前L个节点;从所述第一节点选择集合、所述第二节点选择集合和所述第...

【专利技术属性】
技术研发人员:张子柯詹秀秀周楠马强刘闯
申请(专利权)人:杭州师范大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1