The invention discloses a hot word detection method, in particular to a hot word discovery method based on keyword weighting algorithm. The invention uses Chinese segmentation tool for massive public opinion information of word segmentation, POS tagging is given, combined with a IDF table, a filter and a list of POS weights, based on weighted TF type IDF algorithm candidate words heat value calculation, the calculation not only on the basis of word frequency, but the full account of the effective information containing the words part of speech, such as location, provides reliable basis for hot word recognition. In addition, the invention takes full account of the characteristics of the theme of public opinion in the media age, and mainly deals with the corpus processing of the public opinion headlines, and solves the problem of the efficiency of the hot word recognition under the massive public opinion information. Finally, the incremental updating of IDF table is implemented, which ensures the real-time frequency of anti document frequency, and improves the accuracy of hot word recognition.
【技术实现步骤摘要】
一种基于关键字加权算法的舆情热词发现方法
本专利技术涉及一种热词发现方法,具体涉及一种基于关键字加权算法的热词发现方法。技术背景随着互联网的普及和飞速发展,每日海量的新闻数据在网络上涌现。另一方面,微博、博客、论坛等自媒体的出现使网络上信息的发布者从专业的新闻媒体记者转化为各行各业的普通网民,社会大众也由过去被动的信息接收者转为现在信息的传播者。网络用语由此变得越来越丰富多彩,譬如“给力”、“屌丝”、“躺枪”等新词层出不穷。在此情况下,如何在纷繁复杂的网络信息中挖掘热点词汇、如何获取热门的新词条和新概念进而有效的寻找热点话题,正成为舆情研究领域的热点和难点。热词是伴随网络普及而出现的一种词汇现象,它通常反映了某一时间段内社会中发生的重大事件或是被社会大众所关注的热点问题,是组成互联网热点信息的一部分。热词具有创造性和突发性,它覆盖了当下网民或媒体关注的热点人物、热点事件。比如,“青岛大虾”就是出自于国庆期间,被爆出“38元一只”的天价虾事件,之后此词就暗讽某些商家的宰客行为。因此,快速识别热词就可以快速准确的了解社会以及民情,进而可以对舆论导向进行正确的引导和宣传。另外,对各大搜索领域而言,有效地识别热词可以提高网站的点击量,甚至增加利润。简单而言,热词发现是一种文本挖掘技术,就是从海量的网络信息中经过预处理、提取特征、以及聚类分析挖掘出在给定时间段内出现的热门词条。热词发现主要包含语料切分、噪音词过滤、特征提取以及热词识别四个过程。热词发现过程中最基本最关键的就是语料切分,简而言之,就是分词。众所周知,中文和英文的一个显著不同在于中文以汉字字符为最小 ...
【技术保护点】
一个舆情语料库,存储从互联网上抓取的经过预处理海量舆情信息。
【技术特征摘要】
1.一个舆情语料库,存储从互联网上抓取的经过预处理海量舆情信息。2.一个过滤词库,分为词性过滤表和词义过滤表两部分,用以对分词结果中助词、介词、连词等虚词、表示修饰的形容词和表征程度的副词、数词和量词的搭配等词性以及并无实际含义的词进行过滤。3.一个IDF表,用以存储词汇或短语的反文档频率,并且实现动态更新。4.一个词性权重表,用以存储不同词性的权重,权重等级取值为1-5,依次递增。5.舆情信息预处理模块,在对相关舆情网页进行采集后,过滤网页中图片、广告、链接等噪音数据,提取出舆情新闻的标题和内容,将其存入舆情语料库,为后续文本处理提供基础。6.文本分词模块,对语料库中的文本采用基于词典和统计相结合的方法进行分词,并且对获得的每个词或短语进行词性标注,实现对新词和未登录词的识别。7.噪音过滤模块...
【专利技术属性】
技术研发人员:赵一昕,李华康,杨天若,杨天楚,
申请(专利权)人:常州普适信息科技有限公司,常州市公共交通集团公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。