基于三部图模型的微博热点话题溯源方法技术

技术编号:18237870 阅读:249 留言:0更新日期:2018-06-17 01:09
本发明专利技术涉及社交网络热点话题分析领域,特别涉及一种基于三部图模型的微博热点话题溯源方法,包括:利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取;对单条微博消息进行传播路径模型还原;以单条微博消息的传播路径还原为基础,建立“消息‑路径‑用户”话题三部图;对根据话题三部图计算得到的消息、路径和用户得分序列排序,将排名靠前的N个作为热点话题源点序列;本发明专利技术在针对节点自身属性与话题无关性和语义技术的局限性对溯源分析的影响,在三部图中引入HITS排名思想,考虑到消息与用户相互影响关系的同时,改进排序算法,提高算法的准确度。 1

Tracing method of micro-blog hot topic based on three part graph model

The invention relates to the hot topic analysis field of social network, especially a method for tracing the source of hot topic of micro-blog based on three graph models, including using the application programming interface API provided by the web crawler or all kinds of social software to obtain the data, and to restore the path model of the single micro-blog message; On the basis of the path reduction of the single micro-blog message, the three graph of the \message user path user\ topic is set up. The sequence of the message, path and user score sequence calculated according to the three graph of the topic is ordered as the source point sequence of the top N, which is independent of the node's own property and the topic independence. And the influence of the limitation of semantic technology on the traceability analysis, the HITS ranking idea is introduced in the three graph. Considering the interaction between the message and the user, the sorting algorithm is improved and the accuracy of the algorithm is improved. One

【技术实现步骤摘要】
基于三部图模型的微博热点话题溯源方法
本专利技术涉及社交网络热点话题分析领域,特别涉及一种基于三部图模型的微博热点话题溯源方法。
技术介绍
随着互联网的快速发展与社交软件应用的普及,在线社交软件逐渐成为了人们日常交流,通信和娱乐的最重要的手段之一。微博作为互联网新时代的应用产物之一,凭借其发文方便,评论自由并且无关自身身份等特点,在短期内就得到迅猛发展。然而,正是由于其发文与评论的自由性,在微博网络中的热点话题和热点事件所引发的舆情也越来越多。这就对在线社交网络中舆情的管控提出了新的挑战。近年来,对微博网络下话题传播网络中关键信息与关键用户的寻找逐渐成为相关专家研究的热点。现阶段,对微博话题溯源的方法大致分为以下几种:基于文本内容的分析、基于复杂网络中用户节点影响力的分析、基于传播网络构建传播树的分析。其中,基于文本内容的分析,主要根据同一话题下各消息文本内容相似性来找出其中与其它消息相似度最高的若干条,确定话题源头。如时国华,周斌等人在《一种微博事件源头发现的方法》中,基于文本内容,发表时间和微博之间的链接关系找出时间源头;基于用户节点影响力的分析,主要是利用参与用户在网络中的影响力排序来分析,如CesarHenriqueComin等人在《Identifyingthestartingpointofaspreadingprocessincomplexnetworks》中,通过一种改进的中心度测量方法,在ER网络和无标度网络上进行了验证;基于传播网络构建传播树的分析,如Sadikov等人在《Correctingformissingdataininformationcascades》中针对多数据源,构建了K树模型,从而展现出溯源和还原传播路径的研究价值。以上话题溯源的相关研究中,多是侧重于从不同的角度对话题网络中的关键消息或者关键用户节点进行挖掘,或从消息文本内容下手,或从复杂网络中参与节点影响力下手,而忽略了话题的传播与参与用户之间的相互影响关系。然而在实际的话题网络中,关键传播路径与关键用户对话题的传播起着至关重要的作用。
技术实现思路
针对上述不足,本专利技术针对目前溯源研究中过于侧重某一方面而忽略了热点话题的传播与参与用户对话题扩散的推进作用的问题,本专利技术提出一种基于三部图模型的微博热点话题溯源方法,如图1,包括:S1、利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取;S2、对单条微博消息进行传播路径模型还原;S3、以单条微博消息的传播路径还原为基础,建立“消息-路径-用户”话题三部图;S4、对根据话题三部图计算得到的消息、路径和用户得分序列排序,将排名靠前的N个作为热点话题源点序列。优选的,利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取,具体包括:S11、数据获取,通过新浪微博网页抓取热点话题下参与度较高的多条消息以及消息的参与用户,用户个人信息下的一级转发数目,评论数目,用户粉丝数目以及用户关注数目;S12、简单的数据清洗,数据清洗包括删除重复数据、整理无效节点等。优选的,单条微博消息传播路径模型还原,具体包括:S21、根据获取的消息的传播路径构建传播树模型,考虑到评论用户只是受影响用户而不具备二次传播能力,所以将根节点至每一个转发叶子节点的传播路线看作是一条消息传播路径,则可以得到消息路径集合为S22、获得用户消息传播带动力,用户的消息传播带动力定义为:其中,vk,mi表示第i个消息中的用户节点vk,pt表示第t条路径,Ω表示消息M的传播路径数量,drive(vk,mi)是用户的消息传播带动力,表示用户节点vk下的转发数,表示用户节点vk下的评论数。优选的,建立“消息-路径-用户”话题三部图,具体包括:S31、构建“消息-路径-用户”话题三部图模型,根据同一用户可能会对不同消息进行转发与评论,使多条消息传播具有重叠,从而构成话题全网络,以此为基础构建话题三部图,具体表示为:G=(M∪P∪V,A∪B);其中,G表示话题三步图模型,M={M1,M2,M3,...,Mi}为消息集合,P={P1,P2,P3,...,Pi}为消息传播路径集合,V={V1,V2,V3,...,Vi}为参与用户集合,A为消息-路径之间的权值矩阵,B为路径-用户之间的权值矩阵。S32、用户话题传播带动力的计算,同一个用户可能会同时参与此热点话题下不同消息,定义用户话题传播带动力为:其中,drive(vk,mi)为用户的消息传播带动力,vk,mi表示第i个消息中的用户节点vk。S33、引进超文本话题搜索(Hypertext-InducedTopicSearch,HITS)排名思想,使用循环迭代打分机制对话题三部图中关键元素进行挖掘,即对消息、路径和用户进行挖掘,其中循环迭代打分机制包括正向打分过程和反向打分过程。本专利技术首先利用树状图模型构建消息传播路径-传播树,根据节点的传播出度确定每个节点的传播带动力;然后构建消息-路径-用户话题三部图,进一步刻画消息,路径和用户之间的影响关系,解决了上述研究中忽略消息与用户的相关性的问题;最后,针对节点自身属性与话题无关性和语义技术的局限性对溯源分析的影响,在三部图中引入HITS排名思想,根据各节点集初始分值向量和它们之间的权值矩阵,利用迭代循环打分机制计算各节点集的分数向量;最后根据得分生成各节点集分值序列。本专利技术在考虑到消息与用户相互影响关系的同时,改进排序算法,提高算法的准确度。附图说明图1是本专利技术基于三部图模型的微博热点话题溯源方法的总体流程图;图2是本专利技术的消息传播路径模型还原图;图3是本专利技术的话题三部图模型;图4是本专利技术的循环打分迭代方式模型图。具体实施方式本专利在考虑到消息与用户相互影响关系的同时,改进排序算法,提出一种基于三部图模型的微博热点话题溯源方法,如图1,包括:S1、利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取;S2、对单条微博消息进行传播路径模型还原;S3、以单条微博消息的传播路径还原为基础,建立“消息-路径-用户”话题三部图;S4、对根据话题三部图计算得到的消息、路径和用户得分序列排序,将排名靠前的N个作为热点话题源点序列。优选的,利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取,具体包括:S11、数据获取,通过新浪微博网页抓取热点话题下参与度较高的多条消息以及消息的参与用户,用户个人信息下的一级转发数目,评论数目,用户粉丝数目以及用户关注数目;S12、简单的数据清洗,数据清洗包括删除重复数据、整理无效节点,例如多次转发与评论同一用户的节点视为无效节点,只看作为一次传播。优选的,单条微博消息传播路径模型还原,如图2,包括:将话题全网络分割,从单条消息入手,利用参与用户转发评论形成的拓扑结构分离出转发用户的传播路径,引入树状模型,把每一个参与用户看作一个节点,每一次转发与评论关系看作是边,构建参与用户传播树模型,并确定用户的消息传播带动力,具体为:S21、根据获取的消息的传播路径构建传播树模型,考虑到评论用户只是受影响用户而不具备二次传播能力,所以将根节点至每一个转发叶子节点的传播路线看作是一条消息传播路径,则可以得到消息路径集合为S22、获得用户消息传播带动力,用户本文档来自技高网
...
基于三部图模型的微博热点话题溯源方法

【技术保护点】
1.基于三部图模型的微博热点话题溯源方法,其特征在于,包括:

【技术特征摘要】
1.基于三部图模型的微博热点话题溯源方法,其特征在于,包括:S1、利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取;S2、对单条微博消息进行传播路径模型还原;S3、以单条微博消息的传播路径还原为基础,建立“消息-路径-用户”话题三部图;S4、对根据话题三部图计算得到的消息、路径和用户得分序列排序,将排名靠前的N个作为热点话题源点序列。2.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取包括:S11、数据获取,通过新浪微博网页抓取热点话题下参与度较高的多条消息以及消息的参与用户,用户个人信息下的一级转发数目,评论数目,用户粉丝数目以及用户关注数目;S12、简单的数据清洗,数据清洗包括删除重复数据、整理无效节点等。3.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述对获取单条微博消息传播路径模型还原包括:S21、根据获取的消息的传播路径构建传播树模型,考虑到评论用户只是受影响用户而不具备二次传播能力,所以将根节点至每一个转发叶子节点的传播路线看作是一条消息传播路径,则可以得到消息路径集合为S22、获得用户消息传播带动力,用户的消息传播带动力定义为:其中,vk,mi表示第i个消息中的用户节点vk,pt表示第t条路径,Ω表示消息M的传播路径数量,drive(vk,mi)是用户的消息传播带动力,表示用户vk下的转发数,表示用户vk下的评论数。4.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述建立“消息-路径-用户”话题三部图包括:S31、构建“消息-路径-用户”话题三部图模型,根据同一用户可能会对不同消息进行转发与评论,使多条消息传播具有重叠,从而构成话题全网络,以此为基础构建话题三部图,具体表示包括:G=(M∪P∪V,A∪B);S32、同一个用户可能会同时参与此热点话题下不同消息,定义用户话题传播带动力为:S33、引进超文本话题搜索HITS排名思想,使用循环迭代打分机制对话题三部图中关键元素进行挖掘;其中,G表示话题三步图模型,M为消息集合,P为消息传播路径集合,V为参与用户集合,A为消息-路径之间的权值矩阵,B为路径-用户之间的权值矩阵,drive(vk,mi)为用户的消息传播带动力,vk,mi表示第i个消息中的用户节点vk。5.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,步骤S33中使用循环...

【专利技术属性】
技术研发人员:肖寒春于海洋李艳军陈迪强
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1