基于新词识别的热门话题采集系统及其方法技术方案

技术编号:19009152 阅读:34 留言:0更新日期:2018-09-22 09:01
本发明专利技术公开了一种基于新词识别的热门话题采集系统及其方法,属于舆情分析领域。本系统包括数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)和结果展示模块(500);其交互关系是:数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)、结果展示模块(500)依次连通。本发明专利技术①能够较好地识别网络新词;②结合大数据技术,处理速度快,且具有容错性;③通过增量聚类的方法实现了对文本数据的流式处理。通过新的分词技术以及主题词采集技术,弥补了传统话题采集系统对于新词不敏感的缺点,对舆情分析以及话题追踪技术提供了更好的支持。

Hot topic collection system based on new word recognition and its method

The invention discloses a hot topic collection system based on new word recognition and a method thereof, belonging to the field of public opinion analysis. The system includes data acquisition module (100), pre-processing module (200), word segmentation module (300), analysis modeling module (400) and result display module (500); its interactive relationship is: data acquisition module (100), pre-processing module (200), word segmentation module (300), analysis modeling module (400), result display module (500). The display module (500) communicates sequentially. The invention can recognize network neologisms better; combined with large data technology, the processing speed is fast and the fault-tolerant; and realized the streaming processing of text data by incremental clustering method. Through the new word segmentation technology and subject word acquisition technology, make up for the traditional topic acquisition system is insensitive to new words shortcomings, public opinion analysis and topic tracking technology provides better support.

【技术实现步骤摘要】
基于新词识别的热门话题采集系统及其方法
本专利技术属于数据挖掘领域,具体涉及一种基于新词识别的热门话题采集系统及其方法。
技术介绍
随着交互式网络技术的发展,近年来,网络舆情数据呈现爆炸式增长的趋势。自从2006年Twitter在美国上线以来,注册用户达到1.6亿,而国内与之相似的本地化微博服务几年来也大为兴盛,各大互联网厂商也推出各自的中文舆情平台,如新浪微博、腾讯微博、人人网等网站,受到广大网民的欢迎。由于微博的即时性很强,突发新闻在微博上的传播速度很快;而且对于影响力比较大的新闻事件,参与转发、评论的用户很多,往往能够先于传统媒体做出反应,这进一步证明了全民媒体在消息传播上不可忽视的作用。针对微博的实时性,对微博内容进行分析和整合具有重大的意义,不仅可以帮助过滤无用信息、提高内容质量、改善用户体验,更能起到事件监测、观点挖掘、舆情控制等重大功能。然而,微博平台信息数据流量较大,内容与格式非常散乱,数据噪音较大。人工审视或传统的统计方法很难从这大量的数据中提取精确而有用的信息,因此引入文本挖掘的方法去对该类数据进行筛选、去重、聚类、分类就非常必要。热门话题的检测作为网络舆情数据分析的一大方向,也得到国内外学者越来越多的重视。由于微博平台比较自由,各种各样的网络新词也是在微博平台上层出不穷。传统的热门话题检测系统对于这样的网络新词无法很好地识别,因此它们并不适合分析网络舆情、尤其是类似于微博平台这样自由、发散的全民媒体舆情数据。
技术实现思路
本专利技术的目的就在于克服现有技术存在的缺点和不足,提供一种基于新词识别的热门话题采集系统及其方法,用以解决当前技术无法实时、可靠地处理流式数据的问题。实现本专利技术目的的技术方案是:一、基于新词识别的热门话题采集系统(简称系统)本系统包括数据采集模块、预处理模块、分词模块、分析建模模块和结果展示模块;其交互关系是:数据采集模块、预处理模块、分词模块、分析建模模块、结果展示模块依次连通。二、基于新词识别的热门话题采集方法(简称方法)本方法包括以下步骤:①数据采集模块通过舆情数据采集设备将舆情数据进行捕获,将处理后的数据以ZIP压缩包的形式传输给后台Hadoop大数据系统进行存储,通过Hadoop大数据系统发送给预处理模块200进行数据清洗;②预处理模块包括停用词去除以及特殊字符去除两部分,该模块主要负责对舆情数据进行简单清洗,由于停用词以及特殊字符所含信息量少且难以根据上下文进行进一步分析,预处理模块200便将这部分词语字符进行清洗,在保证数据信息量的基础上对数据量进行缩减;③分词模块包括基于词典的分词模块、基于统计的分词模块以及去重合并三部分,该模块主要功能是对舆情数据进行分词,通过两种分词方法对于数据进行全方位准确切分;④分析建模模块包括文本量化、主题词检测以及主题词聚类三部分,该模块主要功能是对切分后的舆情数据进行分析建模,检测热门话题,该模块是系统的核心模块;⑤结果展示模块主要是对分析建模模块输出的结果通过图表的方式进行结果展示。本专利技术具有下列优点和积极效果:①能够较好地识别网络新词;②结合大数据技术,处理速度快,且具有容错性;③通过增量聚类的方法实现了对文本数据的流式处理。总之,本专利技术通过新的分词技术以及主题词采集技术,弥补了传统话题采集系统对于新词不敏感的缺点,对舆情分析以及话题追踪技术提供了更好的支持。附图说明图1是本系统的结构方框图;其中:100—数据采集模块;200—预处理模块,201—停用词去除,202—特殊字符去除;300—分词模块,301—基于词典的分词模块,302—基于统计的分词模块,303—去重合并;400—分析建模模块,401—文本量化,402—主题词检测,403—主题词检测;500—结果展示模块。英译汉ZIP:一种文件压缩算法;Hadoop:一个能够对大量数据进行分布式处理的软件框架;Hbase:一个分布式的面向列的Hadoop数据库。具体实施方式以下结合附图和实施例详细说明:一、系统1、总体如图1,本系统包括数据采集模块100、预处理模块200、分词模块300、分析建模模块400和结果展示模块500;其交互关系是:数据采集模块100、预处理模块200、分词模块300、分析建模模块400、结果展示模块500依次连通。2、功能部件1)数据采集模块100数据采集模块100指前端采集设备、文件解析模块以及后台大数据存储模块的总称。2)预处理模块200预处理模块200包括停用词去除201以及特殊字符去除202两部分,该模块主要负责对舆情数据进行简单清洗;(1)停用词去除201中,我们通过停用词表将停用词进行过滤;(2)特殊字符去除202中,我们将表情符号、标点符号、’@’等字符进行过滤;3)分词模块300分词模块300包括基于词典的分词模块301、基于统计的分词模块302以及合并去重303,该模块主要功能是对舆情数据进行分词,通过两种分词方法对于数据进行全方位准确切分;(1)基于词典的分词模块301,该方法的原理是将文档中的字符串与词典中的词条逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分;该方法简单实用,实用性强,对于一些专有名词如人等、地名等非常实用,缺点则是词语的切分过渡依赖词典,对于一些网络新词无法识别;(2)基于统计的分词模块302,该方法的原理是根据字符串在语料库中出现统计频率来决定其是否构成词语;词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词;因此字与字相邻共现的频率或概率能够较好地反映它们成为词的可信度;该方法在本系统中的应用主要是为了识别网络新词的出现,是对于基于词典的分词方法一个很好的补充;(3)去重合并303,由于两种分词方法对于舆情数据进行拆分后,会出现一定量的重复词语,因此我们需要去重合并的步骤将两套拆分结果整合为一套;4)分析建模模块400分析建模模块400包括文本量化401、主题词检测402以及主题词聚类403三部分,该模块主要功能是对切分后的舆情数据进行分析建模,检测热门话题,该模块是系统的核心模块;(1)文本量化401,舆情数据分词后变成一个词向量,对词语频率进行统计,用词频代替词语,将词向量变成向量;(2)主题词检测402,根据词语增长的速度以及词语在整个舆情数据中所占的比例构造复合权值,对主题词进行排序;(3)主题词聚类403,通过增量聚类的方法,将主题词进行聚类,得出热门话题;5)结果展示模块500结果展示模块500通过表格以及词云的方式来展现模型分析结果。3、工作机理数据采集模块100将互联网舆情数据采集后,解析存储到Hadoop大数据后台存储模块中,并将解析后的数据传送给预处理模块200;在预处理模块200中,通过停用词去除201和特殊字符去除202对舆情数据进行简单的过滤,然后将数据传送给分词模块300;分词模块300通过基于词典的分词模块301和基于统计的分词模块302得到两套分词结果,然后通过去重合并303将两套分词结果合并为一套,并传送给分析建模模块400;在分析建模模块400中,首先通过文本量化401将舆情数据转换为数字向量,接着通过主题词检测402得出主题词,最后通过主题词聚类403得出热门话题,并传送给结果展示模块500;在结果展示模块500本文档来自技高网...
基于新词识别的热门话题采集系统及其方法

【技术保护点】
1.一种基于新词识别的热门话题采集系统,其特征在于:包括数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)和结果展示模块(500);其交互关系是:数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)、结果展示模块(500)依次连通。

【技术特征摘要】
1.一种基于新词识别的热门话题采集系统,其特征在于:包括数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)和结果展示模块(500);其交互关系是:数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)、结果展示模块(500)依次连通。2.基于权利要求1所述系统的基于新词识别的热门话题采集方法,其特征在于包括下列步骤:①数据采集模块(100)通过舆情数据采集设备将舆情数据进行捕获,将处理后的数据以ZIP压缩包的形式传输给后台Hadoop大数据系统进行存储,通过Hadoop大数据系统发送给预处理模块(200进)行数据清洗;②预处理模块(200)包括停用词去除以及特殊字符去除两部分,该模块负责对舆情数据进行简单清洗,由于停用词以及特殊字符所含信息量少且难以根据上下文进行进一步分析,预处理模块200便将这部分词语字符进行清洗,在保证数据信息量的基础上对数据量进行缩减;③分词模块(300)包括基于词典的分词模块、基于统计的分词模块以及去重合并三部分,该模块主要功能是对舆情数据进行分词,通过两种分词方法对于数据进行全方位准确切分;④分析建模模块(400)包括文本量化、主题词检测以及主题词聚类三部分,该模块主要功能是对切分后的舆情数据进行分析建模,检测热门话题,该模块是系统的核心模块;⑤结果展示模块(500)主要是对分析建模模块输出的结果通过图表的方式进行结果展示。3.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤①:a、所述的舆情数据采集设备所采集的舆情数据是指某段时间内某个社交平台所有的内容,包括ID以及发布内容;b、所述的将数据传输给后台大数据系统进行存储指的是将数据以ZIP包的形式传送到后台,后台数据采集模块进行解析过滤,将所需数据存储到Hbase中。4.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤②a、停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据时会自动过滤的某些字或词;因此我们在处理数据之前会通过停用词词表将停用词去除;b、在热门话题采集过程中,有些特殊字符,如表情符号、标点符号、’@’等字符,对于话题内容的描述可能性小,因此对这些词语进行过滤,以增加主题词检测的精度。...

【专利技术属性】
技术研发人员:张陶戴长江
申请(专利权)人:武汉虹旭信息技术有限责任公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1