一种基于关键词提取热点话题的方法技术

技术编号:16128998 阅读:42 留言:0更新日期:2017-09-01 20:56
本发明专利技术公开了一种基于关键词提取热点话题的方法,将海量的数据统一格式并分词处理形成语料库,再对语料库并行化分块处理,得到每块的候选词集,然后对每块候选词集进行TFIDF赋权和去重处理,得到基准文档,再将基准文本与块中其他文本作余弦相似度处理,提取出与基准文本相似的文本,对相似文本中的候选关键词集通过词频降序排列找到这些相似文本的若干个热点主题,最后从若干个热点主题中提取出热点话题,更能代表这些海量数据的主要的观点。

A method of extracting hot topics based on keywords

The invention discloses a method for keyword extraction based on hot topics, the unified format data and word processing form a corpus, the corpus of parallel block processing, get each candidate word set, then for each candidate word set of TFIDF weighting and re processing, to obtain reference document, then other text in text and reference block cosine similarity processing, extract the text similarity with the reference text, similar to the candidate keyword text in descending order of frequency set by a number of similar topics to find the theme of the text, the most from several hot topics in the extraction of hot topic, more representative of these data mainly point of view.

【技术实现步骤摘要】
一种基于关键词提取热点话题的方法
本专利技术属于网络舆情监测
,更为具体地讲,涉及一种基于关键词提取热点话题的方法。
技术介绍
随着互联网技术的蓬勃发展和相关应用的迅速普及,每个人不再仅仅是信息的消费者,更是信息的生产者,网民可以借助于电脑,手机等网络终端,随时随地在微博、社交、新闻、博客等各种网站上进行信息获取或发布,还有许多已有的商业门户网站都会为用户收集并提供丰富的新闻报道给用户,比如新浪、网易等.然而,报道内容一般由新闻编辑人工编写,带有一定的主观性,而且新闻数量非常庞大.如果参考多个门户网站的报道,很难对关心的新闻事件有一个清晰准确的认识.在社交媒体平台上,新闻话题多来源于事件现场的用户实时发布的消息,或者具有较高影响力用户的及时推送,经由多人进行评论和转发分享,相互交换意见,使得该新闻事件得以广泛迅速地传播开来,其发展动态也易于被人们追踪.例如微博,用户在该平台上发布的丰富而又全面的内容不仅创造了人们在社交网络中争相讨论的一个又一个热门话题,更是吸引了众多传统媒体利用微博来对相关事件做进一步的跟进。正是由于这种互联网数据爆炸性的增长,以及其具有快餐化、碎片化等特点,导致信息过载、缺乏完整性问题愈专利技术显,快节奏的人们对于时刻涌现的众多新信息感到无所适从,但人们又迫切希望能够及时快速的了解社会上正在讨论的热点话题,热点话题的特点是时效性、多样性、概括性等等。如何高效的在互联网中挖掘出有效的信息,网络监控中面临着许多艰巨的课题,例如,用户对于网络监控的智能化越来越高,从少量数据文本中得到热点不符合现代的网络监控;网络信息的多样化,在数据挖掘的过程中,我们面临的不再是简单少量的文本信息……在这种大背景下,热点话题检测技术作为能够自动发现和组织网络信息的语义关联、帮助用户快速获取网络信息全貌的数据挖掘技术,近年来引起了学术界和工业界的强烈关注。作为信息处理领域中备受关注的研究热点,舆情话题检测与追踪技术在发展初期将新闻媒体信息流作为研究对象,通过监控新闻描述的话题,发现新的用户感兴趣的信息并追踪下去,最后将涉及某个话题的新闻组织起来以某种方式呈现给用户。而后由于计算机技术的飞速发展和互联网的广泛普及,社交媒体逐渐流行起来,于是研究人员将目光投向了彼时具有代表性的博客、邮件、社区和论坛等社交媒体形式。不同于新闻报道的语言规范性和内容有效性,社交媒体文本内容随意性较强,且充斥着大量的无价值信息,文档之间的关联性也较低。面对不断涌现的海量的互联网信息,简单的人工监管难度很大,传统的热点话题发现技术,都是针对少量的文本且文本内容少,热点检测的手段一般是通过从已知的话题中搜索,如果有就加入到原热点话题中,以提高它的热度,以及后续的追踪,但是原来的热点话题中不存在这个话题,我们就要创建一个新的热点话题,添加到热点话题中,以便后来的加入,这就是追踪。但是这种检测与追踪技术,本身是针对文档数目少,如果是面对海量的互联网信息,采用传统话题检测技术,很难满足如此大量而且持续性的信息流中检测热点话题的实际应用需要,即使能够检测,也是时间复杂度非常高,延时非常明显,而用户的精力却十分有限,不可能通过阅读所有文档来获取相关话题的有用知识.因此,用户体验非常糟糕,而用户又往往希望能及时快速的了解目前网民正在讨论的事件或者话题,因此对热点话题的检测速度上有进一步的提升,不仅在时间上的提升,更是在数量的提升。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于关键词提取热点话题的方法,基于关键词提取热点话题,实现每日热点主题的发现和追踪。为实现上述专利技术目的,本专利技术一种基于关键词提取热点话题的方法,其特征在于,包括以下步骤:(1)、通过爬虫爬取海量的文本数据,再将这些文本数据统一成txt文本格式,并储存到数据库中;(2)、提取数据库中的文本数据,再利用中文分词包对文本数据进行分词处理,得到由词语组成的语料库;(3)、将语料库等均分为M个块,再利用停用词表和过滤规则对每块语料库中的分词结果进行过滤,得到M个块的块候选词集;(4)、对第p块(p=1,2,…,M)块候选词集中第i个候选关键词进行TFIDF赋权,得到M个赋权后的块候选词集;(4.1)、计算第p块中第i个候选关键词在第j篇文本中出现的频率其中,表示第p块中第i个候选关键词在第j篇文本中出现的次数,表示第p块中所有候选关键词在第j篇文本中出现的次数之和,k表示第p块中第j篇文本所有候选关键词的总数量;(4.2)、计算第p块中第i个候选关键词的普遍重要性度量IDFip其中,|Dp|表示第p块中的文本的总数目,|ip|表示第p块中包含第i个候选关键词的文本数目;(4.3)、计算第p块中第i个候选关键词在第j篇文本中的权值(4.4)、按照步骤(4.1)-(4.3)所述方法,继续处理第p块中第j篇文本剩余k-1个候选关键词,然后再处理第p块中的其他文本,当第p块块候选词集处理完成后,按照步骤(4.1)-(4.3)所述方法,继续处理剩余的块候选词集,最终得到M个赋权后的块候选词集;(5)、获取基准文本(5.1)、在第p块赋权后的块候选词集中,选出相同的候选关键词,并将相同的候选关键词对应的权值相加,不同的候选关键词保持原有的权值,完成第p块赋权后的块候选词集的去重处理,从而得到块关键词集;(5.2)、将块关键词集中对应候选关键词的权值进行降序排列,再以权值最大的候选关键词为基准,在第p块块候选词集中找到包含该候选关键词的第一篇文本,并标记为基准文本;(5.3)、按照步骤(5.1)-(5.2)所述方法,继续处理剩余赋权后的块候选词集,最终得到M篇基准文本;(6)、求取文本集合(6.1)、找出第p块块关键词集中对应的基准文本,再利用该基准文本中的候选关键词对应的权值组成权值向量w0;(6.2)、找出第p块块关键词集中其它文本,再分别利用这些文本中的候选关键词对应的权值组成权值向量w1,w2,…,wt…,wT,T表示第p块块关键词集中包含文本的总数目;(6.3)、利用余弦相似度公式计算出第p块块关键词集中其它文本与基准文本的相似度余弦值;(6.4)、利用第p块块关键词集中的T个相似度余弦值组成余弦向量Q,再利用余弦向量Q中的每一个向量与预设的阈值θ作比较,如果某一向量大于预设的阈值θ,那么判定该向量对应的文本与基准文本的相似度高,并把该文本和基准文本一起加入到文本集合(6.5)、按照步骤(6.1)-(6.4)所述方法,继续处理剩余块关键词集,最终得到M个文本集合(7)、在文本集合中,将文本中重复出现的候选关键词的词频加1,进而统计出文本中所有候选关键词的词频,再将词频进行降序排列,取出前l个候选关键词作为热点关键词,并用这些热点关键词标记为文本集合的热点主题同理,得到剩余M-1个热点主题;(8)、在第p块块候选词集中,剔除文本集合中出现的相似文本,将剩余文本组成的块候选词集按照步骤(4)-(7)所述方法,提取到h-1个热点主题同理,在剩余的M-1个块候选词集中分别提取出h-1个热点主题;(9)、将M个块候选词集中分别得到h个热点主题对应的所有文本分别存入到对应块的热点文本集合中,再将M个热点文本集合组合起来作为语料库,按照步骤(3)所述方法,提取候选关键词集,然后重复步本文档来自技高网
...
一种基于关键词提取热点话题的方法

【技术保护点】
一种基于关键词提取热点话题的方法,其特征在于,包括以下步骤:(1)、通过爬虫爬取海量的文本数据,再将这些文本数据统一成txt文本格式,并储存到数据库中;(2)、提取数据库中的文本数据,再利用中文分词包对文本数据进行分词处理,得到由词语组成的语料库;(3)、将语料库等均分为M个块,再利用停用词表和过滤规则对每块语料库中的分词结果进行过滤,得到M个块的块候选词集;(4)、对第p块(p=1,2,…,M)块候选词集中第i个候选关键词进行TFIDF赋权,得到M个赋权后的块候选词集;(4.1)、计算第p块中第i个候选关键词在第j篇文本中出现的频率

【技术特征摘要】
1.一种基于关键词提取热点话题的方法,其特征在于,包括以下步骤:(1)、通过爬虫爬取海量的文本数据,再将这些文本数据统一成txt文本格式,并储存到数据库中;(2)、提取数据库中的文本数据,再利用中文分词包对文本数据进行分词处理,得到由词语组成的语料库;(3)、将语料库等均分为M个块,再利用停用词表和过滤规则对每块语料库中的分词结果进行过滤,得到M个块的块候选词集;(4)、对第p块(p=1,2,…,M)块候选词集中第i个候选关键词进行TFIDF赋权,得到M个赋权后的块候选词集;(4.1)、计算第p块中第i个候选关键词在第j篇文本中出现的频率其中,表示第p块中第i个候选关键词在第j篇文本中出现的次数,表示第p块中所有候选关键词在第j篇文本中出现的次数之和,k表示第p块中第j篇文本所有候选关键词的总数量;(4.2)、计算第p块中第i个候选关键词的普遍重要性度量IDFip其中,|Dp|表示第p块中的文本的总数目,|ip|表示第p块中包含第i个候选关键词的文本数目;(4.3)、计算第块中第i个候选关键词在第j篇文本中的权值(4.4)、按照步骤(4.1)-(4.3)所述方法,继续处理第p块中第j篇文本剩余k-1个候选关键词,然后再处理第p块中的其他文本,当第p块块候选词集处理完成后,按照步骤(4.1)-(4.3)所述方法,继续处理剩余的块候选词集,最终得到M个赋权后的块候选词集;(5)、获取基准文本(5.1)、在第p块赋权后的块候选词集中,选出相同的候选关键词,并将相同的候选关键词对应的权值相加,不同的候选关键词保持原有的权值,完成第p块赋权后的块候选词集的去重处理,从而得到块关键词集;(5.2)、将块关键词集中对应候选关键词的权值进行降序排列,再以权值最大的候选关键词为基准,在第p块块候选词集中找到包含该候选关键词的第一篇文本,并标记为基准文本;(5.3)、按照步骤(5.1)-(5.2)所述方法,继续处理剩余赋权后的块候选词集,最终得到M篇...

【专利技术属性】
技术研发人员:陆川孙健杨伟
申请(专利权)人:成都云数未来信息科学有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1