一种基于突发特征的微博热点话题检测方法技术

技术编号:14778327 阅读:56 留言:0更新日期:2017-03-09 14:12
本发明专利技术公开了一种基于突发特征的微博热点话题检测方法,首先提取融合背景热点的用户转发兴趣特征、用户转发行为特征、用户转发活跃度以及微博内容特征;然后获得当前的背景热点事件,对单个背景热点事件对应的新闻文档集合提取关键词,再用关键词扩展背景热点事件的信息内容,从多个角度描述一个背景热点事件,基于扩展获得的结果集形成背景热点时间的表示;最后获取用户影响力、转发较活跃的用户和用户兴趣与微博相似性。本发明专利技术基于背景热点事件用户转发行为,提高了微博转发预测的准确率,能够更好地了解用户行为动机,更好地了解事件发展趋势;对话题检测、热点跟踪、舆情监控以及商业营销具有重要价值。

【技术实现步骤摘要】

本专利技术属于社交网络平台
,尤其涉及一种基于突发特征的微博热点话题检测方法
技术介绍
微博是一种通过关注机制分享简短实时信息的广播式社交网络平台。微博从2009年发布至今,迅速以其内容简洁、交互简便和快速传播等特点,发展成为人们表达观点、抒发情绪、传递信息的重要社会媒体。根据2015年7月《CNNIC:2015年第36次中国互联网络发展状况统计报告》,截止2015年6月,我国微博的用户量达到2.04亿,其中手机移动端的用户数为1.62亿,使用率为27.3%,用户之间通过关注形成复杂的关系网络。在微博平台中,用户之间通过关注关系构成错综复杂的网络结构,用户通过转发微博传播信息,这种传播方式具有传播快、覆盖广的特点,这使得某些信息能够在微博中快速扩散,短时间内获得极大的关注。现有微博转发研究的出发点主要有两个方面:基于微博和用户的基本特征、基于社交网络结构特征,这些研究工作将微博平台视作一个独立系统,不受其他渠道信息影响。事实上,研究工作表明,当有突发话题发生时,微博传播很大程度上会收到外界信息的影响。微博是否会被转发与用户个体行为和用户对微博的知识背景具有紧密相关性。用户所掌握的微博背景知识一方面由历史微博获取,一方面由用户对微博内容的综合认知程度决定,而用户的认知是一个综合个人知识和个人社会背景认识事物的复杂过程,影响因素众多。其次,通过微博内容与用户兴趣相似度判断用户转发的方法,往往因为微博内容非常短,所含内容特征有限,使得微博与用户兴趣之间的相似度计算准确性低,转发行为预测准确性低。因此,基于背景热点事件用户转发行为,能够更好地了解用户行为动机,更好地了解事件发展趋势。这对话题检测、热点跟踪、舆情监控以及商业营销具有重要价值。综上所述,通过微博内容与用户兴趣相似度判断用户转发的方法,往往因为微博内容非常短,所含内容特征有限,使得微博与用户兴趣之间的相似度计算准确性低,转发行为预测准确性低。
技术实现思路
本专利技术的目的在于提供一种基于突发特征的微博热点话题检测方法,旨在解决现有方法微博转发预测准确率低的问题。本专利技术是这样实现的,一种基于突发特征的微博热点话题检测方法,所述基于突发特征的微博热点话题检测方法包括:步骤一、提取融合背景热点的用户转发兴趣特征、用户转发行为特征、用户转发活跃度以及微博内容特征;步骤二、获得当前的背景热点事件,对单个背景热点事件对应的新闻文档集合提取关键词,再用关键词扩展背景热点事件的信息内容,从多个角度描述一个背景热点事件,基于扩展获得的结果集形成背景热点时间的表示;步骤三、获取用户影响力、转发较活跃的用户和用户兴趣与微博相似性。进一步,所述背景热点的数据从各类新闻类门户网站的热点新闻频道获取。进一步,以用户粉丝数衡量用户影响力。进一步,用户发表微博的方式包括转发微博和原创微博,用户活跃度也包含原创和转发两个方面;发表微博活跃度:发表微博活跃度表示用户在选定时间内发表微博的频繁程度,用单位时间内发表微博的数量表示:PA=nt]]>其中,PA为发表微博活跃度,t代表在时间内发表微博的数量为n;转发微博活跃度:发表微博活跃度表示用户在选定时间内转发微博的频繁程度,用选定时间内转发微博数量与发表微博数量的比值表示:RA=Σi∈triΣi∈tpi]]>其中,ri和pi分别表示第i天用户转发微博和发表微博的数量。进一步,以Jaccard相似性系数来计算用户兴趣与微博的相似度,计算方式如下:S=|I_user∩J||I_user∪J|.]]>本专利技术的另一目的在于提供一种应用基于突发特征的微博热点话题检测方法的话题检测方法。本专利技术的另一目的在于提供一种应用基于突发特征的微博热点话题检测方法的热点跟踪方法。本专利技术的另一目的在于提供一种应用基于突发特征的微博热点话题检测方法的舆情监控方法。本专利技术的另一目的在于提供一种应用基于突发特征的微博热点话题检测方法的商业营销方法。本专利技术提供的基于突发特征的微博热点话题检测方法,基于背景热点事件用户转发行为,能够更好地了解用户行为动机,更好地了解事件发展趋势,从而对话题检测、热点跟踪、舆情监控以及商业营销具有重要价值;在微博转发预测中加入了背景热点,是对现有内容特征和结构特征的补充,从而提高了微博转发预测的准确率。附图说明图1是本专利技术实施例提供的基于突发特征的微博热点话题检测方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。如图1所示,本专利技术实施例的基于突发特征的微博热点话题检测方法包括以下步骤:S101:提取融合背景热点的用户转发兴趣特征、用户转发行为特征、用户转发活跃度以及微博内容特征;S102:获得当前的背景热点事件,对单个背景热点事件对应的新闻文档集合提取关键词,再用这些关键词扩展背景热点事件的信息内容,从多个角度描述一个背景热点事件,基于扩展获得的结果集形成背景热点时间的表示;S103:获取用户影响力、转发较活跃的用户和用户兴趣与微博相似性。本专利技术实施例的基于突发特征的微博热点话题检测方法具体内容包括:首先提取融合背景热点的用户转发兴趣特征、用户转发行为特征、用户转发活跃度以及微博内容特征;提取方法如下:(1)基于背景热点话题的用户转发兴趣特征背景热点话题对不同类别的用户的影响程度是不同的,原本对背景热点话题感兴趣的用户相比原本对背景热点话题不感兴趣的用户更容易受背景热点话题的影响。用户转发行为和用户转发兴趣与背景热点的匹配程度具有密切关系,用户转发兴趣与背景热点话题之间的匹配程度越高,用户越容易转发与背景热点相关微博。融合背景热点话题的用户转发兴趣能够促进用户对与背景热点相关微博的转发,因此,用户转发兴趣与背景热点的匹配程度能够作为微博转发预测的有效转发特征。(2)基于背景热点话题的用户活跃度用户活跃度通常指用户发布微博的频繁程度,用户转发活跃度通常指用户转发微博的频繁程度。用户转发微博始终是用户的一种主动行为,长期不登录微博平台或者没有转发或发表微博习惯的微博用户,不太可能会转发微博,转发与背景热点相关的微博的可能性更小,用户活跃度或转发活跃度从侧面反映了用户的转发能力。融合背景热点的用户活跃的可以由用户转发与背景热点相关微博的频繁程度来刻画。用户转发行为活跃度通过用户在热点话题期间的累积转发量表示,融合背景热点话题的用户转发活跃度通过热点话题期间与热点话题相关的微博的累积转发量表示,该特征能够表明用户对热点话题的感兴趣程度。计算公式如下:用户在一段时间t内转发的与热点话题相关的微博的频繁程度:Uf={|mit|||mit∩S|>τ本文档来自技高网
...
一种基于突发特征的微博热点话题检测方法

【技术保护点】
一种基于突发特征的微博热点话题检测方法,其特征在于,所述基于突发特征的微博热点话题检测方法包括:步骤一、提取融合背景热点的用户转发兴趣特征、用户转发行为特征、用户转发活跃度以及微博内容特征;步骤二、获得当前的背景热点事件,对单个背景热点事件对应的新闻文档集合提取关键词,再用关键词扩展背景热点事件的信息内容,从多个角度描述一个背景热点事件,基于扩展获得的结果集形成背景热点时间的表示;步骤三、获取用户影响力、转发较活跃的用户和用户兴趣与微博相似性。

【技术特征摘要】
1.一种基于突发特征的微博热点话题检测方法,其特征在于,所述基于突发特征的微博热点话题检测方法包括:步骤一、提取融合背景热点的用户转发兴趣特征、用户转发行为特征、用户转发活跃度以及微博内容特征;步骤二、获得当前的背景热点事件,对单个背景热点事件对应的新闻文档集合提取关键词,再用关键词扩展背景热点事件的信息内容,从多个角度描述一个背景热点事件,基于扩展获得的结果集形成背景热点时间的表示;步骤三、获取用户影响力、转发较活跃的用户和用户兴趣与微博相似性。2.如权利要求1所述的基于突发特征的微博热点话题检测方法,其特征在于,所述背景热点的数据从各类新闻类门户网站的热点新闻频道获取。3.如权利要求1所述的基于突发特征的微博热点话题检测方法,其特征在于,以用户粉丝数衡量用户影响力。4.如权利要求1所述的基于突发特征的微博热点话题检测方法,其特征在于,用户发表微博的方式包括转发微博和原创微博,用户活跃度也包含原创和转发两个方面;发表微博活跃度:发表微博活跃度表示用户在选定时间内发表微博的频繁程度,用单位时间内发表微博的...

【专利技术属性】
技术研发人员:程国艮巢文涵陈江
申请(专利权)人:中译语通科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1