微博热点话题自动检测方法及装置制造方法及图纸

技术编号:11448525 阅读:65 留言:0更新日期:2015-05-13 20:47
本发明专利技术公开了一种微博热点话题自动检测方法及装置,涉及互联网技术领域,本发明专利技术通过对待检测的微博文本依次进行关键词提取、关键词组获取及关键词组聚类,以获得候选关键词簇,最后计算各个候选关键词簇所对应话题的热度值并根据热度值选择热点话题,减小了热点话题检测的复杂度,并实现有效的热点话题检测。

【技术实现步骤摘要】
微博热点话题自动检测方法及装置
本专利技术涉及互联网
,特别涉及一种微博热点话题自动检测方法及装置。
技术介绍
随着Twitter和新浪微博用户群体规模的迅速扩大,由用户生成的短消息也呈现爆炸式增长,信息的时效性也越来越强,通过浏览每条信息来了解当前的热点事件已经不可能实现。现有的微博热点话题检测方法通常采用基于语义扩展的方法。该方法针对微博消息短小,能够提取的特征词项比较少的特点,通过语义相关性来扩展特征向量的维度,来提高短文本之间相似度计算的准确性,进而提高微博中热点话题检测的效果。但对于基于语义扩展的方法,通过引入语义计算和提高特征向量的维度来提高热点话题检测的准确性,造成了计算复杂度的大幅度提高,很难满足海量微博数据分析的实际需求;另外,潜在语义分析(LSI)本身也是基于概率统计的方法,并没有考虑句子的结构、词在句子中的位置关系等信息,还不能完全解决语义歧义的问题。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:如何减小热点话题检测的复杂度,并实现有效的热点话题检测。(二)技术方案为解决上述技术问题,本专利技术提供了一种微博热点话题自动检测方法,所述方法包括以下步骤:S1:抓取待检测的微博文本;S2:对所述微博文本进行关键词提取;S3:根据各个关键词之间的相关性,获取关键词组;S4:根据各个关键词组之间的相关性,对所述关键词组进行聚类,以获得候选关键词簇;S5:计算每个候选关键词簇所代表话题的热度值,根据所述热度值对所述候选关键词簇进行排序,按照所述热度值从大到小顺序在所述候选关键词簇中选择N个关键词簇,并将所述N个关键词簇分别代表的话题作为热点话题,所述N为不小于1的整数。其中,步骤S1和步骤S2之间还包括:对所述微博文本进行预处理,所述预处理包括:噪声过滤和/或文本去重。其中,步骤S2包括:S201:对所述微博文本进行分词处理,以获得所述微博文本中所有的词语,对所述词语进行词性标注,并统计所述词语的频次和文档频率;S202:根据所述词语的频次、文档频率及词性计算每个词语的权重值;S203:根据所述权重值对所述词语进行排序,选取为预设词性并且不在停用词表中的词语作为候选关键词,所述预设词性包括:形容词、动词、简称、地名、人名、机构名和专有名词;S204:按照权重值从大到小顺序在所述候选关键词中选择预设个数m的关键词。其中,步骤S202包括:S2021:根据当前用户所关注的领域获取用户词典;S2022:根据所述词语的频次、文档频率及词性并结合所述用户词典计算每个词语的权重值。其中,步骤S204中,当所述候选关键词的数量w小于所述预设个数m时,则将所述候选关键词作为关键词,并按照权重值从大到小顺序在除所述候选关键词外的词语中选择m-w个词语作为关键词。其中,步骤S3包括:S301:遍历所述微博文本,在当前微博文本内具有两个关键词时,则将所述两个关键词作为关键词对,并依次判断所述当前微博文本内各个关键词对之间的距离是否为预设距离,每次判断为是,则将该关键词对的同现频度加1,以获得每个关键词对的同现频度;S302:根据所述同现频度计算每个关键词对之间的卡方统计量;S303:根据所述卡方统计量对所述关键词对进行排序,按照卡方统计量从大到小顺序在所述关键词对之中选择预设个数q的关键词对作为关键词组。其中,步骤S303中,选择关键词对时,对于同一个关键词,只能被选择预设次数x。其中,步骤S4包括:S401:设当前关键词组中包括关键词w1和w2,并将当前关键词组的密度值设为关键词w1和关键词w2的卡方统计值;S402:分别遍历关键词w1和关键词w2所在的其他关键词组,设所述其他关键词组中的待并入关键词为wi,对关键词wi进行判断,若满足Ds(cws∪wi)≥Ds(cws)/2,则将关键词wi并入当前关键词组;其中,Ds(cws∪wi)=(Ds(cws)+max(cws,wi))/(cws.size+1),cws为当前词组,Ds(cws∪wi)为当前关键词组中并入关键词wi后的密度值,Ds(cws)为所述当前关键词组的密度值,cws.size为所述当前关键词组中关键词的个数,max(cws,wi)为cws中所包含的关键词和关键词wi之间的最大卡方统计值;S403:遍历已并入当前关键词组中的关键词wi所在的关键词组,设所述关键词组中的待并入关键词为wj,对关键词wj进行判断,若满足Ds(cws∪wj)≥Ds(cws)/2,则将关键词wj并入当前关键词组,直至没有关键词能够并入所述当前关键词组为止,将所述当前关键词组作为所述候选关键词簇;其中,Ds(cws∪wj)=(Ds(cws)+max(cws,wj))/(cws.size+1),Ds(cws∪wj)为当前关键词组中并入关键词wj后的密度值,max(cws,wj)为cws中所包含的关键词和关键词wj之间的最大卡方统计值;S404:判断是否已经遍历了除被并入的关键词组外的所有关键词组,若是,则执行步骤S5,否则返回步骤S401。其中,步骤S4和S5之间包括:遍历所述微博文本,判断当前微博文本是否满足条件一或条件二,若是,则将所述当前微博文本作为与所述候选关键词簇T对应的微博文本,并将所述候选关键词簇T对应的微博文本的数量加1,以获得每个候选关键词簇对应的微博文本的数量,所述命名实体包括:人名、地名和机构名,所述条件一为包含某一候选关键词簇T中的命名实体,所述条件二为包含所述候选关键词簇T中关键词总数预设比例p的关键词;步骤S5中通过以下公式计算每个候选关键词簇所代表话题的热度值,其中,H(topic)为热度值,n为与候选关键词簇对应的微博文本的数量,doci为第i个与候选关键词簇对应的微博文本,len(*)为文本长度,f为转发数,c为评论数。其中,步骤S5之后还包括:S6:获取每个热点话题的话题摘要;步骤S6包括:S601:将所述热点话题所对应的微博文本通过下式根据文本长度和所包含关键词的个数进行打分,Score(doci)=log(len(doci))*count(keyword)其中,Score(doci)为第i个微博文本的得分,len(doci)为第i个微博文本的长度,count(keyword)为第i个微博文本所包含关键词的个数;S602:选择每个热点话题所对应的微博文本中打分最高的微博文本;S603:判断当前打分最高的微博文本中是否具有标题标识符【】,若是,则将所述标题标识符所包含的内容作为当前热点话题的话题摘要,并执行步骤S606,否则执行步骤S604;S604:判断当前打分最高的微博文本中是否具有话题标识符[],若是,则将所述话题标识符所包含的内容作为当前热点话题的话题摘要,并执行步骤S606,否则执行步骤S605;S605:计算当前打分最高的微博文本中的每个句子的权重,并选取所有微博中权重最大的句子作为当前热点话题的话题摘要;S606:判断所有热点话题的话题摘要是否均已获得,若是,则结束流程,否则返回步骤S603。本专利技术还公开了一种微博热点话题自动检测装置,所述装置包括:文本抓取模块,用于抓取待检测的微博文本;关键词提取模块,用于对所述微博文本进行关键词提取;关键词组获取模块,用于根据各个关键词之间的相关性,获取关键词组;本文档来自技高网...
微博热点话题自动检测方法及装置

【技术保护点】
一种微博热点话题自动检测方法,其特征在于,所述方法包括以下步骤:S1:抓取待检测的微博文本;S2:对所述微博文本进行关键词提取;S3:根据各个关键词之间的相关性,获取关键词组;S4:根据各个关键词组之间的相关性,对所述关键词组进行聚类,以获得候选关键词簇;S5:计算每个候选关键词簇所代表话题的热度值,根据所述热度值对所述候选关键词簇进行排序,按照所述热度值从大到小顺序在所述候选关键词簇中选择N个关键词簇,并将所述N个关键词簇分别代表的话题作为热点话题,所述N为不小于1的整数。

【技术特征摘要】
1.一种微博热点话题自动检测方法,其特征在于,所述方法包括以下步骤:S1:抓取待检测的微博文本;S2:对所述微博文本进行关键词提取;S3:根据各个关键词之间的相关性,获取关键词组;S4:根据各个关键词组之间的相关性,对所述关键词组进行聚类,以获得候选关键词簇;S5:计算每个候选关键词簇所代表话题的热度值,根据所述热度值对所述候选关键词簇进行排序,按照所述热度值从大到小顺序在所述候选关键词簇中选择N个关键词簇,并将所述N个关键词簇分别代表的话题作为热点话题,所述N为不小于1的整数;其中,步骤S3包括:S301:遍历所述微博文本,在当前微博文本内具有两个关键词时,则将所述两个关键词作为关键词对,并依次判断所述当前微博文本内各个关键词对之间的距离是否为预设距离,每次判断为是,则将该关键词对的同现频度加1,以获得每个关键词对的同现频度;S302:根据所述同现频度计算每个关键词对之间的卡方统计量;S303:根据所述卡方统计量对所述关键词对进行排序,按照卡方统计量从大到小顺序在所述关键词对之中选择预设个数q的关键词对作为关键词组。2.如权利要求1所述的方法,其特征在于,步骤S1和步骤S2之间还包括:对所述微博文本进行预处理,所述预处理包括:噪声过滤和/或文本去重。3.如权利要求1所述的方法,其特征在于,步骤S2包括:S201:对所述微博文本进行分词处理,以获得所述微博文本中所有的词语,对所述词语进行词性标注,并统计所述词语的频次和文档频率;S202:根据所述词语的频次、文档频率及词性计算每个词语的权重值;S203:根据所述权重值对所述词语进行排序,选取为预设词性并且不在停用词表中的词语作为候选关键词,所述预设词性包括:形容词、动词、简称、地名、人名、机构名和专有名词;S204:按照权重值从大到小顺序在所述候选关键词中选择预设个数m的关键词。4.如权利要求3所述的方法,其特征在于,步骤S202包括:S2021:根据当前用户所关注的领域获取用户词典;S2022:根据所述词语的频次、文档频率及词性并结合所述用户词典计算每个词语的权重值。5.如权利要求3所述的方法,其特征在于,步骤S204中,当所述候选关键词的数量w小于所述预设个数m时,则将所述候选关键词作为关键词,并按照权重值从大到小顺序在除所述候选关键词外的词语中选择m-w个词语作为关键词。6.如权利要求1所述的方法,其特征在于,步骤S303中,选择关键词对时,对于同一个关键词,只能被选择预设次数x。7.如权利要求1所述的方法,其特征在于,步骤S4包括:S401:设当前关键词组中包括关键词w1和w2,并将当前关键词组的密度值设为关键词w1和关键词w2的卡方统计值;S402:分别遍历关键词w1和关键词w2所在的其他关键词组,设所述其他关键词组中的待并入关键词为wi,对关键词wi进行判断,若满足,Ds(cwsUwi)≥Ds(cws)/2则将关键词wi并入当前关键词组;其中,Ds(cwsUwi)=(Ds(cws)+max(ws,wi)/(cws.size+1)),cws为当前词组,Ds(cwsUwi)为当前关键词组中并入关键词wi后的密度值,Ds(cws)为所述当前关键词组的密度值,cws.size为所述当前关键词组中关键词的个数,max(ws,wi)为cws中所包含的关键词和关键词wi之间的最大卡方统计值;S403:遍历已并入当前关键词组中的关键词wi所在的关键词组,设所述关键词组中的待并入关键词为wj,对关键词wj进行判断,若满足Ds(cwsUwj)≥Ds(cws)/2,则将关键词wj并入当前关键词组,直至没有关键词能够并入所述当前关键词组为止,将所述当前关键词组作为所述候选关键词簇;其中,Ds(cwsUwj)=(Ds(cws)+max(ws,wj)/(cws.size+1)),Ds(cwsUwj)为当前关键词组中并入关键词wj后的密度值,max(ws,wj)为cws中所包含的关键词和关键词wj之间的最大卡方统计值;S404:判断是否已经遍历了除被并入的关键词组外的所有关键词组,若是,则执行步骤S5,否则返回步骤S401。8.如权利要求1所述的方法,其特征在于,步骤S4和S5之间包括:遍历所述微博文本,判断当前微博文本是否满足条件一或条件二,若是,则将所述当前微博文本作为与所述候选关键词簇T对应的微博文本,并将所述候选关键词簇T对应的微博文本的数量加1,以获得每个候选关键词簇对应的微博文本的数量,所述条件一为包含某一候选关键词簇T中的命名实体,所述命名实体包括:人名、地名和机构名,所述条件二为包含所述候选关键词簇T中关键词总数预设比例P的关键词;步骤S5中通过以下公式计算每个候选关键词簇所代表话题的热度值,其中,H(topic)为热度值,n为与候选关键词簇对应的微博文本的数量,doci为第i个与候选关键词簇对应的微博文本,len(*)为文本长度,f为转发数,c为评论数。9.如权利要求1~8中任一项所述的方法,其特征在于,步骤S5之后还包括:S6:获取每个热点话题的话题摘要;步骤S6包括:S601:将所述热点话题所对应的微博文本通过下式根据文本长度和所包含关键词的个数进行打分,Score(doci)=log(len(doci))*count(keyword)其中,Score(doci)为第i个微博文本的得分,len(doci)为第i个微博文本的长度,count(keyword)为第i个微博文本所包含关键词的个数;S602:选择每个热点话题所对应的微博文本中打分最高的微博文本;S603:判断当前打分最高的微博文本中是否具有标题标识符【】,若是,则将所述标题标识符所包含的内容作为当前热点话题的话题摘要,并执行步骤S606,否则执行步骤S604;S604:判断当前打分最高的微博文本中是否具有话题标识符[],若是,则将所述话题标识符所包含的内容作为当前热点话题的话题摘要,并执行步骤S606,否则执行步骤S605;S605:计算当前打分最高的微博文本中的每个句子的权重,并选取所有微博中权重最大的句子作为当前热点话题的话题摘要;S606:判断所有热点话题的话题摘要是否均已获得,若是,则结束流程,否则返回步骤S603。10.一种微博热点话题自动检测装置,其特征在于,所述装置包括:文本抓取模块,用于抓取待检测的微博文本;关键词提取模块...

【专利技术属性】
技术研发人员:赵立永于晓明杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1