一种基于关键字加权算法的舆情热词发现方法技术

技术编号:16188182 阅读:87 留言:0更新日期:2017-09-12 11:25
本发明专利技术公开了一种热词发现方法,具体涉及一种基于关键字加权算法的热词发现方法。本发明专利技术利用中文分词工具对海量的舆情信息进行初步分词,并给出词性标注,同时结合一个IDF表、一个过滤词表和一个词性权值表,依据加权式TF‑IDF算法进行候选词语热度值计算,该计算不仅仅只依据词频,而是充分考虑了词语的词性、位置等所包含的有效信息,为热词识别提供了可靠性依据。另外,本发明专利技术充分考虑了自媒体时代下舆情标题主题鲜明的特点,主要对舆情标题进行语料处理,解决了海量舆情信息下的热词识别的效率问题。最后对IDF表实现动态的增量式更新,保证了词语反文档频率的实时性,提高了热词识别的准确度。

A method for finding popular speech hot words based on keyword weighting algorithm

The invention discloses a hot word detection method, in particular to a hot word discovery method based on keyword weighting algorithm. The invention uses Chinese segmentation tool for massive public opinion information of word segmentation, POS tagging is given, combined with a IDF table, a filter and a list of POS weights, based on weighted TF type IDF algorithm candidate words heat value calculation, the calculation not only on the basis of word frequency, but the full account of the effective information containing the words part of speech, such as location, provides reliable basis for hot word recognition. In addition, the invention takes full account of the characteristics of the theme of public opinion in the media age, and mainly deals with the corpus processing of the public opinion headlines, and solves the problem of the efficiency of the hot word recognition under the massive public opinion information. Finally, the incremental updating of IDF table is implemented, which ensures the real-time frequency of anti document frequency, and improves the accuracy of hot word recognition.

【技术实现步骤摘要】
一种基于关键字加权算法的舆情热词发现方法
本专利技术涉及一种热词发现方法,具体涉及一种基于关键字加权算法的热词发现方法。技术背景随着互联网的普及和飞速发展,每日海量的新闻数据在网络上涌现。另一方面,微博、博客、论坛等自媒体的出现使网络上信息的发布者从专业的新闻媒体记者转化为各行各业的普通网民,社会大众也由过去被动的信息接收者转为现在信息的传播者。网络用语由此变得越来越丰富多彩,譬如“给力”、“屌丝”、“躺枪”等新词层出不穷。在此情况下,如何在纷繁复杂的网络信息中挖掘热点词汇、如何获取热门的新词条和新概念进而有效的寻找热点话题,正成为舆情研究领域的热点和难点。热词是伴随网络普及而出现的一种词汇现象,它通常反映了某一时间段内社会中发生的重大事件或是被社会大众所关注的热点问题,是组成互联网热点信息的一部分。热词具有创造性和突发性,它覆盖了当下网民或媒体关注的热点人物、热点事件。比如,“青岛大虾”就是出自于国庆期间,被爆出“38元一只”的天价虾事件,之后此词就暗讽某些商家的宰客行为。因此,快速识别热词就可以快速准确的了解社会以及民情,进而可以对舆论导向进行正确的引导和宣传。另外,对各大搜索领域而言,有效地识别热词可以提高网站的点击量,甚至增加利润。简单而言,热词发现是一种文本挖掘技术,就是从海量的网络信息中经过预处理、提取特征、以及聚类分析挖掘出在给定时间段内出现的热门词条。热词发现主要包含语料切分、噪音词过滤、特征提取以及热词识别四个过程。热词发现过程中最基本最关键的就是语料切分,简而言之,就是分词。众所周知,中文和英文的一个显著不同在于中文以汉字字符为最小单位,词条与词条之间不存在明显的词边界,任何相邻的字符都可能构成热词,这给中文处理造成了很大困难,因此,词条切分、确定词边界至关重要,极大的影响了后续垃圾词过滤,热词识别处理的准确度。中文分词大致分为基于词典匹配的方法和基于统计的方法。基于词典匹配的方法主要是将文本与给定的分词词典进行比较和匹配,然后通过歧义消除来进行处理,这种方法简单,效率高,但对于并未登录于词典上的词难以识别。基于统计的分词方法主要基于字和词的统计信息,将相邻字的共现信息应用于分词,这种方法主要包括互信息、隐马尔可夫模型(HMM)、随机条件场(CRF)和最大熵模型(ME)。与基于词典的分词相比,这种方式处理速度慢,但却对未登录词的识别有较好的效果。在实际处理中,大多会平衡分词速度和精度这两个因素,选择词典和统计相结合的方式进行分词处理。热词识别中,噪音词的过滤又称为停用词过滤。对网络文本进行预处理之后,我们得到了经过词性标注的词组。这些词组中有很多并无实际意义的词,此时过滤处理主要针对以下两种词组:一种为频繁出现的语气助词、介词、连词等虚词,例如“的”、“是”、“了”、“吗”等;另一种为修饰性地形容词、表征程度地副词和频率出现较高的数词和量词的搭配。经过过滤可以显著提高后续文本处理和热词识别的速度。文本表示是指用一种准确简单的方式表示文档内容,从而可以为计算机识别。目前的文本表示方法有布尔模型、向量空间模型、概率检索模型、N元语法模型等。其中,最为经典的是向量空间模型(VSM,VectorSpaceModel),即将文本表示为特征项和特征项权值组成的空间向量的形式,特征项为该文档表示的一个维度,特征项的权值反映了特征项对该文档的重要程度。在空间向量模型中,每篇文档表示为如下的形式:v(D)={w1(d1),w2(d2),...,wn(dn)}其中,D表示文档,n表示在文本特征抽取时所抽取文本特征项的总数,wj(dj)表示第j个文本特征项在文档D中的权值。热词发现中的热词识别依赖于VSM模型中特征权值的计算。权值的计算有三种方法:第一种为二值法,特征项出现在文档中标记为1,否则标记为0;第二种方法权值表示为特征项在文档中出现的频率。这两种方法并没有考虑特征项在语料库的重要程度,因此,特征权值采用经典的TF-IDF方法更为合理。TF-IDF是一种用于信息检索的常用的加权统计技术,他可以反映特征项对于一个语料库中的一份文件的重要程度。某一特征项的权值随着其在文件中出现的次数成正比增加,同时会随着其在语料库中出现的频率成反比下降。他的具体定义形式如下:其中,tflk为特征项k出现在文档l中的频数,dfk为文档集中出现特征项k的文档数,N为文档集中的文档总数。TF-IDF方法是目前研究和应用最为广泛的一种方法。综上所述,以上介绍的现有的热词发现方法存在以下问题:(1)忽略了互联网舆情主题鲜明的特性。当前网络新闻为了提高网民的点击率与社会大众的关注度,发布者一般都会在舆情页面标题中明确地表达事件主题和观点,因此,标题中关键词信息价值很高。而现有的热词发现在文本表示时,对文档向量化时,并未考虑标题的信息价值,将其与舆情正文简单拼接进行文本处理,这样在特征提取时,不仅处理数据量大、处理效率低,而且易造成特征项提取的不准确。(2)权值计算所使用IDF表维护困难。一方面,对于那些新词以及表中未登录的词难以计算IDF值;另一方面,现有的IDF表需手工更新且更新周期长,而舆情新闻以每日数以万计的速度发布,IDF表无法实时更新会造成数据偏差越来越大。(3)忽略词组中词性的有效信息。在TF-IDF的特征权值计算中,每个词都有不同的词性,而且命名实体的信息量大于非命名实体,未登录的特征项比可识别的更有可能是热词。但现有的热词发现算法并未考虑词性所包含的有效信息,而是将所有候选词组赋予了相同的权重。针对以上问题,本专利技术引入了加权式TF-IDF计算方法对传统的TF-IDF计算公式进行改进,针对不同词性赋予不同权值,并且实现对IDF表增量式更新,提高了热词识别的准确度。同时,考虑到舆情信息的海量性和主题鲜明性,通过对舆情标题为主,舆情正文为辅进行处理来提高文本处理的效率。
技术实现思路
本专利技术主要解决自媒体时代下现有热词发现方法的问题与不足,提供了一种基于关键字加权式的TF-IDF算法的热词发现方法,以解决在海量舆情信息下热词发现的效率和准确度的问题,从而实现热点词汇的高效、准确识别。为了实现上述目的,本专利技术提供的技术方案如下:一种基于关键字加权算法的舆情热词发现方法,包括:一个舆情语料库,存储从互联网上抓取的经过预处理海量舆情信息;一个过滤词库,分为词性过滤表和词义过滤表两部分,用以对分词结果中助词、介词、连词等虚词、表示修饰的形容词和表征程度的副词、数词和量词的搭配等词性以及并无实际含义的词进行过滤;一个IDF表,用以存储词汇或短语的反文档频率,并且实现动态更新;一个词性权重表,用以存储不同词性的权重。权重等级取值为1-5,依次递增。舆情信息预处理模块,在对相关舆情网页进行采集后,过滤网页中图片、广告、链接等噪音数据,提取出舆情新闻的标题和内容,将其存入舆情语料库,为后续文本处理提供基础。文本分词模块,对语料库中的文本采用基于词典和统计相结合的方法进行分词,并且对获得的每个词或短语进行词性标注,实现对新词和未登录词的识别。噪音过滤模块,参照过滤词库对获得的分词集合进行词性、词义比对,对出现在过滤词库中的词和短语,不再作为候选热点词汇参与后续计算。权值计算模块,对经过噪音过滤模块筛选得到的候选热点词或短语参本文档来自技高网
...
一种基于关键字加权算法的舆情热词发现方法

【技术保护点】
一个舆情语料库,存储从互联网上抓取的经过预处理海量舆情信息。

【技术特征摘要】
1.一个舆情语料库,存储从互联网上抓取的经过预处理海量舆情信息。2.一个过滤词库,分为词性过滤表和词义过滤表两部分,用以对分词结果中助词、介词、连词等虚词、表示修饰的形容词和表征程度的副词、数词和量词的搭配等词性以及并无实际含义的词进行过滤。3.一个IDF表,用以存储词汇或短语的反文档频率,并且实现动态更新。4.一个词性权重表,用以存储不同词性的权重,权重等级取值为1-5,依次递增。5.舆情信息预处理模块,在对相关舆情网页进行采集后,过滤网页中图片、广告、链接等噪音数据,提取出舆情新闻的标题和内容,将其存入舆情语料库,为后续文本处理提供基础。6.文本分词模块,对语料库中的文本采用基于词典和统计相结合的方法进行分词,并且对获得的每个词或短语进行词性标注,实现对新词和未登录词的识别。7.噪音过滤模块...

【专利技术属性】
技术研发人员:赵一昕李华康杨天若杨天楚
申请(专利权)人:常州普适信息科技有限公司常州市公共交通集团公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1