The invention discloses a method for keyword extraction based on hot topics, the unified format data and word processing form a corpus, the corpus of parallel block processing, get each candidate word set, then for each candidate word set of TFIDF weighting and re processing, to obtain reference document, then other text in text and reference block cosine similarity processing, extract the text similarity with the reference text, similar to the candidate keyword text in descending order of frequency set by a number of similar topics to find the theme of the text, the most from several hot topics in the extraction of hot topic, more representative of these data mainly point of view.
【技术实现步骤摘要】
一种基于关键词提取热点话题的方法
本专利技术属于网络舆情监测
,更为具体地讲,涉及一种基于关键词提取热点话题的方法。
技术介绍
随着互联网技术的蓬勃发展和相关应用的迅速普及,每个人不再仅仅是信息的消费者,更是信息的生产者,网民可以借助于电脑,手机等网络终端,随时随地在微博、社交、新闻、博客等各种网站上进行信息获取或发布,还有许多已有的商业门户网站都会为用户收集并提供丰富的新闻报道给用户,比如新浪、网易等.然而,报道内容一般由新闻编辑人工编写,带有一定的主观性,而且新闻数量非常庞大.如果参考多个门户网站的报道,很难对关心的新闻事件有一个清晰准确的认识.在社交媒体平台上,新闻话题多来源于事件现场的用户实时发布的消息,或者具有较高影响力用户的及时推送,经由多人进行评论和转发分享,相互交换意见,使得该新闻事件得以广泛迅速地传播开来,其发展动态也易于被人们追踪.例如微博,用户在该平台上发布的丰富而又全面的内容不仅创造了人们在社交网络中争相讨论的一个又一个热门话题,更是吸引了众多传统媒体利用微博来对相关事件做进一步的跟进。正是由于这种互联网数据爆炸性的增长,以及其具有快餐化、碎片化等特点,导致信息过载、缺乏完整性问题愈专利技术显,快节奏的人们对于时刻涌现的众多新信息感到无所适从,但人们又迫切希望能够及时快速的了解社会上正在讨论的热点话题,热点话题的特点是时效性、多样性、概括性等等。如何高效的在互联网中挖掘出有效的信息,网络监控中面临着许多艰巨的课题,例如,用户对于网络监控的智能化越来越高,从少量数据文本中得到热点不符合现代的网络监控;网络信息的多样化,在数据挖掘 ...
【技术保护点】
一种基于关键词提取热点话题的方法,其特征在于,包括以下步骤:(1)、通过爬虫爬取海量的文本数据,再将这些文本数据统一成txt文本格式,并储存到数据库中;(2)、提取数据库中的文本数据,再利用中文分词包对文本数据进行分词处理,得到由词语组成的语料库;(3)、将语料库等均分为M个块,再利用停用词表和过滤规则对每块语料库中的分词结果进行过滤,得到M个块的块候选词集;(4)、对第p块(p=1,2,…,M)块候选词集中第i个候选关键词进行TFIDF赋权,得到M个赋权后的块候选词集;(4.1)、计算第p块中第i个候选关键词在第j篇文本中出现的频率
【技术特征摘要】
1.一种基于关键词提取热点话题的方法,其特征在于,包括以下步骤:(1)、通过爬虫爬取海量的文本数据,再将这些文本数据统一成txt文本格式,并储存到数据库中;(2)、提取数据库中的文本数据,再利用中文分词包对文本数据进行分词处理,得到由词语组成的语料库;(3)、将语料库等均分为M个块,再利用停用词表和过滤规则对每块语料库中的分词结果进行过滤,得到M个块的块候选词集;(4)、对第p块(p=1,2,…,M)块候选词集中第i个候选关键词进行TFIDF赋权,得到M个赋权后的块候选词集;(4.1)、计算第p块中第i个候选关键词在第j篇文本中出现的频率其中,表示第p块中第i个候选关键词在第j篇文本中出现的次数,表示第p块中所有候选关键词在第j篇文本中出现的次数之和,k表示第p块中第j篇文本所有候选关键词的总数量;(4.2)、计算第p块中第i个候选关键词的普遍重要性度量IDFip其中,|Dp|表示第p块中的文本的总数目,|ip|表示第p块中包含第i个候选关键词的文本数目;(4.3)、计算第块中第i个候选关键词在第j篇文本中的权值(4.4)、按照步骤(4.1)-(4.3)所述方法,继续处理第p块中第j篇文本剩余k-1个候选关键词,然后再处理第p块中的其他文本,当第p块块候选词集处理完成后,按照步骤(4.1)-(4.3)所述方法,继续处理剩余的块候选词集,最终得到M个赋权后的块候选词集;(5)、获取基准文本(5.1)、在第p块赋权后的块候选词集中,选出相同的候选关键词,并将相同的候选关键词对应的权值相加,不同的候选关键词保持原有的权值,完成第p块赋权后的块候选词集的去重处理,从而得到块关键词集;(5.2)、将块关键词集中对应候选关键词的权值进行降序排列,再以权值最大的候选关键词为基准,在第p块块候选词集中找到包含该候选关键词的第一篇文本,并标记为基准文本;(5.3)、按照步骤(5.1)-(5.2)所述方法,继续处理剩余赋权后的块候选词集,最终得到M篇...
【专利技术属性】
技术研发人员:陆川,孙健,杨伟,
申请(专利权)人:成都云数未来信息科学有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。