The invention discloses a hot topic collection system based on new word recognition and a method thereof, belonging to the field of public opinion analysis. The system includes data acquisition module (100), pre-processing module (200), word segmentation module (300), analysis modeling module (400) and result display module (500); its interactive relationship is: data acquisition module (100), pre-processing module (200), word segmentation module (300), analysis modeling module (400), result display module (500). The display module (500) communicates sequentially. The invention can recognize network neologisms better; combined with large data technology, the processing speed is fast and the fault-tolerant; and realized the streaming processing of text data by incremental clustering method. Through the new word segmentation technology and subject word acquisition technology, make up for the traditional topic acquisition system is insensitive to new words shortcomings, public opinion analysis and topic tracking technology provides better support.
【技术实现步骤摘要】
基于新词识别的热门话题采集系统及其方法
本专利技术属于数据挖掘领域,具体涉及一种基于新词识别的热门话题采集系统及其方法。
技术介绍
随着交互式网络技术的发展,近年来,网络舆情数据呈现爆炸式增长的趋势。自从2006年Twitter在美国上线以来,注册用户达到1.6亿,而国内与之相似的本地化微博服务几年来也大为兴盛,各大互联网厂商也推出各自的中文舆情平台,如新浪微博、腾讯微博、人人网等网站,受到广大网民的欢迎。由于微博的即时性很强,突发新闻在微博上的传播速度很快;而且对于影响力比较大的新闻事件,参与转发、评论的用户很多,往往能够先于传统媒体做出反应,这进一步证明了全民媒体在消息传播上不可忽视的作用。针对微博的实时性,对微博内容进行分析和整合具有重大的意义,不仅可以帮助过滤无用信息、提高内容质量、改善用户体验,更能起到事件监测、观点挖掘、舆情控制等重大功能。然而,微博平台信息数据流量较大,内容与格式非常散乱,数据噪音较大。人工审视或传统的统计方法很难从这大量的数据中提取精确而有用的信息,因此引入文本挖掘的方法去对该类数据进行筛选、去重、聚类、分类就非常必要。热门话题的检测作为网络舆情数据分析的一大方向,也得到国内外学者越来越多的重视。由于微博平台比较自由,各种各样的网络新词也是在微博平台上层出不穷。传统的热门话题检测系统对于这样的网络新词无法很好地识别,因此它们并不适合分析网络舆情、尤其是类似于微博平台这样自由、发散的全民媒体舆情数据。
技术实现思路
本专利技术的目的就在于克服现有技术存在的缺点和不足,提供一种基于新词识别的热门话题采集系统及其方法,用以解决当前技术 ...
【技术保护点】
1.一种基于新词识别的热门话题采集系统,其特征在于:包括数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)和结果展示模块(500);其交互关系是:数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)、结果展示模块(500)依次连通。
【技术特征摘要】
1.一种基于新词识别的热门话题采集系统,其特征在于:包括数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)和结果展示模块(500);其交互关系是:数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)、结果展示模块(500)依次连通。2.基于权利要求1所述系统的基于新词识别的热门话题采集方法,其特征在于包括下列步骤:①数据采集模块(100)通过舆情数据采集设备将舆情数据进行捕获,将处理后的数据以ZIP压缩包的形式传输给后台Hadoop大数据系统进行存储,通过Hadoop大数据系统发送给预处理模块(200进)行数据清洗;②预处理模块(200)包括停用词去除以及特殊字符去除两部分,该模块负责对舆情数据进行简单清洗,由于停用词以及特殊字符所含信息量少且难以根据上下文进行进一步分析,预处理模块200便将这部分词语字符进行清洗,在保证数据信息量的基础上对数据量进行缩减;③分词模块(300)包括基于词典的分词模块、基于统计的分词模块以及去重合并三部分,该模块主要功能是对舆情数据进行分词,通过两种分词方法对于数据进行全方位准确切分;④分析建模模块(400)包括文本量化、主题词检测以及主题词聚类三部分,该模块主要功能是对切分后的舆情数据进行分析建模,检测热门话题,该模块是系统的核心模块;⑤结果展示模块(500)主要是对分析建模模块输出的结果通过图表的方式进行结果展示。3.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤①:a、所述的舆情数据采集设备所采集的舆情数据是指某段时间内某个社交平台所有的内容,包括ID以及发布内容;b、所述的将数据传输给后台大数据系统进行存储指的是将数据以ZIP包的形式传送到后台,后台数据采集模块进行解析过滤,将所需数据存储到Hbase中。4.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤②a、停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据时会自动过滤的某些字或词;因此我们在处理数据之前会通过停用词词表将停用词去除;b、在热门话题采集过程中,有些特殊字符,如表情符号、标点符号、’@’等字符,对于话题内容的描述可能性小,因此对这些词语进行过滤,以增加主题词检测的精度。...
【专利技术属性】
技术研发人员:张陶,戴长江,
申请(专利权)人:武汉虹旭信息技术有限责任公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。