当前位置: 首页 > 专利查询>北京大学专利>正文

一种社交网络热词和事件挖掘系统及方法技术方案

技术编号:7625599 阅读:277 留言:0更新日期:2012-08-01 03:15
本发明专利技术公开了一种社交网络热词和事件挖掘系统及方法,涉及社交网络领域。所述方法包括步骤:对候选词进行统计,得到相应的候选词序列;根据所述候选词序列,计算所述候选词在不同时间点的状态参数;提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;根据所述备选状态序列,计算所述候选词的状态转移代价;根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。所述系统和方法提高了热词挖掘的准确度。

【技术实现步骤摘要】

本专利技术涉及社交网络
,特别涉及。
技术介绍
根据词在社交网络上的使用情况,可以挖掘该词使用较为频繁的时间段,即该词为热词的时间段;在热词时间段对包含热词的社交网络文本进行事件挖掘,可以对事件进行摘要,同时挖掘出传播该事件的有影响力的用户,并且可能会对企业、政府的调研、决策提供有力的数据支持。J. Kleinberg 在 “Bursty and hierarchical structure in streams” 一文中提出了一种热词挖掘方法,该方法认为候选词在一个时间区间内可能处于两种状态(I) 0状态-普通状态,(2) I状态-热词状态,并为候选词计算了一个基础概率PO和一个热词概率 P1,分别作为两种状态下的词的生成概率;将词的生成概率取对数后再取负,得到词的生成代价;该方法还定义状态之间的转移代价。该方法采用序列标注的方式对一个热词在若干连续时间区间进行状态标注,求得一个使总代价最小的标注序列。该方法的缺点是(I)对一个词采用静态全局概率作为基础概率。全局静态概率没有考虑到某些词在社会上使用概率的变化,例如“冏”在2008年之前很少使用,而在2008年后则成为中文地区的网络社群间成为一种流行的表情符号。(2)不能解决社交网络上周期性热词问题。比如“晚安”在晚间使用较多,容易挖掘出一些非事件性的周期性热词。(3)该方法主要针对新闻数据,没有考虑到社交网络数据特有的信息,比如转发信息、用户关系信息,社交网络文本中包含的URL信息等。(4)使用一个时间点上的总社交网络文本数,而总社交网络文本数在社交网络的不同时间点变化很大(比如晚上8-9点的总社交网络文本数必然多于凌晨)。因此,其不能解决总社交网络文本数波动较大的问题。
技术实现思路
(一 )要解决的技术问题本专利技术要解决的技术问题是如何提供,以便提高热词挖掘的准确度。(二)技术方案为解决上述技术问题,本专利技术提供一种社交网络热词和事件挖掘系统,其包括信息统计模块、状态参数模块、生成代价模块、转移代价模块和状态序列模块;所述信息统计模块,用于对候选词进行统计,得到相应的候选词序列;所述状态参数模块,用于根据所述候选词序列,计算所述候选词在不同时间点的状态参数;所述生成代价模块,用于根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;所述转移代价模块,根据所述备选状态序列,计算所述候选词的状态转移代价;所述状态序列模块,用于提供所述备选状态序列,并根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。本专利技术还提供一种社交网络热词和事件挖掘方法,其包括步骤A :对候选词进行统计,得到相应的候选词序列;B :根据所述候选词序列,计算所述候选词在不同时间点的状态参数; C :提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;D :根据所述备选状态序列,计算所述候选词的状态转移代价;E :根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。优选地,所述步骤A中,所述候选词序列包括通过统计各个时间点包含所述候选词的社交网络文本数得到的词频序列,或者通过统计各个时间点包含所述候选词且是转发的社交网络文本数得到的转发序列,或者通过统计各个时间点包含所述候选词且是原创的社交网络文本数得到的原创序列,或者通过统计各个时间点发送包含所述候选词的社交网络文本的用户的数量得到的用户序列,或者通过统计各个时间点包含URL信息且包含所述候选词的社交网络文本数量得到的URL序列。优选地,所述状态参数为泊松分布参数,并且包括0状态参数和I状态参数。优选地,所述O状态参数的计算公式如下其中,λ⑴i表示每天24小时中第i个时间点的O状态参数,0彡i彡23 ;rt表示所述候选词序列中第t个时间点对应的数据,t为自然数;η表示所述候选词序列中时间点的总数。优选地,所述I状态参数的计算公式如下权利要求1.一种社交网络热词和事件挖掘系统,其特征在于,包括信息统计模块、状态参数模块、生成代价模块、转移代价模块和状态序列模块;所述信息统计模块,用于对候选词进行统计,得到相应的候选词序列;所述状态参数模块,用于根据所述候选词序列,计算所述候选词在不同时间点的状态参数;所述生成代价模块,用于根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;所述转移代价模块,根据所述备选状态序列,计算所述候选词的状态转移代价;所述状态序列模块,用于提供所述备选状态序列,并根据所述候选词序列、状态参数、 状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。2.一种社交网络热词和事件挖掘方法,其特征在于,包括步骤A :对候选词进行统计,得到相应的候选词序列;B :根据所述候选词序列,计算所述候选词在不同时间点的状态参数;C :提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;D :根据所述备选状态序列,计算所述候选词的状态转移代价;E :根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。3.如权利要求2所述的方法,其特征在于,所述步骤A中,所述候选词序列包括通过统计各个时间点包含所述候选词的社交网络文本数得到的词频序列,或者通过统计各个时间点包含所述候选词且是转发的社交网络文本数得到的转发序列,或者通过统计各个时间点包含所述候选词且是原创的社交网络文本数得到的原创序列,或者通过统计各个时间点发送包含所述候选词的社交网络文本的用户的数量得到的用户序列,或者通过统计各个时间点包含URL信息且包含所述候选词的社交网络文本数量得到的URL序列。4.如权利要求2所述的方法,其特征在于,所述状态参数为泊松分布参数,并且包括0 状态参数和I状态参数。5.如权利要求4所述的方法,其特征在于,所述O状态参数的计算公式如下6.如权利要求5所述的方法,其特征在于,所述I状态参数的计算公式如下 λ l,i = β λ0, ;其中,Xui表示每天24小时中第i个时间点的I状态参数;β表示热度系数,并且β > I。7.如权利要求6所述的方法,其特征在于,所述步骤C具体包括步骤如下:提供备选状态序列;:根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成概:根据所述状态生成概率得到所述候选词的状态生成代价。8.如权利要求7所述的方法,其特征在于,所述步骤C2中的状态生成概率的计算公式 其中,P(k,rt)表示所述候选词对应k状态的状态生成概率,k等于I或者O。9.如权利要求8所述的方法,其特征在于,所述步骤C3中的状态生成代价C-G(k,rt) 的计算公式如下10.如权利要求2所述的方法,其特征在于,所述状态转移代价的计算公式如下全文摘要本专利技术公开了,涉及社交网络领域。所述方法包括步骤对候选词进行统计,得到相应的候选词序列;根据所述候选词序列,计算所述候选词在不同时间点的状态参数;提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;根据所述备选状态序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:闫宏飞树柏涵赵鑫李晓明
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术