【技术实现步骤摘要】
基于情感信息抽取分析的网络舆情突发事件自动识别方法
本专利技术涉及自然语言处理与大数据分析领域,特别涉及基于情感信息抽取分析的网络舆情突发事件自动识别方法。
技术介绍
互联网技术的不断进步带动了社交网络的蓬勃发展,新浪、微博、脸书等社交网络平台的用户日趋增长,用户通过发表相关新闻事件观点或个人动态,通过关注机制分享简短实时信息,具有一定的时效性和广泛的传播性。大量的社交网络信息中包含了用户对相关事件的观点和态度,通过深度分析此类数据,可以识别出用户的情感倾向和隐含信息,相关分析结果可以协助政府了解民众对相关政策的理解和适应程度,帮助企业识别产品的评价、提高高校对学生动态的认知能力,并对部分突发事件进行识别和提前处置。现有的突发事件的抽取技术主要通过事件关键词和特征抽取,通过已构建的事件抽取模板实现事件的抽取。现有传统方法存在以下问题(1)社交网络平台信息表述各异,对于事件抽取模板的维护工作量太大(2)社交网络平台所提及的事件种类和内容纷繁复杂,对重点突发事件的识别和判断效果不佳。
技术实现思路
为解决上述社交网络平台通过事件抽取方式识别突发事件的工作量大和对识别重点突发事件效果不佳的问题,本专利技术提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括如下步骤:步骤1,根据社交媒体采集方法获取历史社交媒体数据,并进行数据预处理;步骤2,根据历史社交媒体数据训练情感模型,形成情感识别模型;步骤3,根据情感识别模型,对社交媒体中突发情感进行检测与分析;步 ...
【技术保护点】
1.基于情感信息抽取分析的网络舆情突发事件自动识别方法,其特征在于,包括如下步骤:/n步骤1,根据社交媒体采集方法获取历史社交媒体数据,并进行数据预处理;/n步骤2,根据历史社交媒体数据训练并形成情感识别模型;/n步骤3,根据情感识别模型,对社交媒体中突发情感进行检测与分析;/n步骤4,提取突发情感对应的社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;/n步骤5,提取社交媒体数据中事件关键词,并与事件原始关键词库进行匹配,关键词完全匹配并情感状态为负面时,获取对应事件基本信息,形成突发事件描述,所述事件基本信息包括事件名称、时间、地点、人物。/n
【技术特征摘要】
1.基于情感信息抽取分析的网络舆情突发事件自动识别方法,其特征在于,包括如下步骤:
步骤1,根据社交媒体采集方法获取历史社交媒体数据,并进行数据预处理;
步骤2,根据历史社交媒体数据训练并形成情感识别模型;
步骤3,根据情感识别模型,对社交媒体中突发情感进行检测与分析;
步骤4,提取突发情感对应的社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;
步骤5,提取社交媒体数据中事件关键词,并与事件原始关键词库进行匹配,关键词完全匹配并情感状态为负面时,获取对应事件基本信息,形成突发事件描述,所述事件基本信息包括事件名称、时间、地点、人物。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,采集历史社交媒体数据,对所采集的历史社交媒体数据通过基于内容的过滤算法,构建URL和内容双重过滤模型,对URL进行过滤用,同时进行内容过滤处理;
步骤1-2,将经过步骤1-1处理后的数据通过摘要生成模型,构建基于语句特征和基于聚类方法的抽取式摘要生成模型,抽取接入文本数据的内容摘要。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:
步骤1-1-1:在数据预处理服务器上建立对URL进行过滤用的数据库,数据库包括合法URL表WhiteList和非法URL表BlackList,两张表均包含URL名和访问次数两个属性,同时分别对两张表建立索引;
步骤1-1-2:进行URL匹配时,使用散列函数匹配方法;数据预处理服务器缓存空间满的时候实施URL缓存替换,将最近时间段内未被访问时间间隔最长的URL替换出去;
步骤1-1-3:在数据预处理服务器对应的合法URL表中未发现URL后,如果在数据预处理服务器对应的非法URL表中发现则返回警告并进行过滤;如果未在数据预处理服务器对应的非法URL表中发现则标记为可疑,并进行下一步内容过滤处理;
步骤1-1-4:对于标记为可疑的接入社交媒体页面,通过现有潜在语义索引算法的内容过滤处理后,如果发现信息是合法的则进行输出,同时页面缓存和白名单表进行刷新;
步骤1-1-5:对于标记为可疑的接入社交媒体页面,通过现有潜在语义索引算法的内容过滤处理后,如果信息为无用信息,则返回警告,并更新黑名单,不进行信息输出。
4.根据权利要求3所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,选取文本摘要提取预处理后社交媒体数据,通过现有句子抽取技术得到包含主要情感相关信息的句子;
步骤2-2,从步骤2-1得到的句子中抽取结构化文本信息,汇集形成语料;
步骤2-3,基于深度学习方法构建序列标注模型,对结构化文本信息进行情感序列标注,形成情感标注信息;
步骤2-4,通过情感标注信息和情感词的情感权重值计算构建情感词典,并定义情感序列,通过情感词典和情感序列生成情感识别模型。
5.根据权利要求4所述的方法,其特征在于,步骤2-2中,基于Bi-LSTM-CRF网络从步骤2-1得到的句子中抽取结构化信息,具体包括:
步骤2-2-1,利用Word2Vec预训练的词向量解决有监督标注语料不足的问题,使用Skip-gram语言模型在包含情感相关信息的句子上进行词向量的训练;
步骤2-2-2,采用现有BiLSTM-CRF模型,通过Bi-LSTM层自动进行文本分类,并提取包含情感相关信息句子的特征,将句子中每个词的词向量序列作为Bi-LSTM层的各个时间状态的输人,再将正向的LSTM输出的隐状态序列和反向LSTM输出的各位置隐状态序列...
【专利技术属性】
技术研发人员:顾学海,贺成龙,梁增玉,陈晓琳,尹晓阳,李惠柯,刘蛰,高峰,
申请(专利权)人:南京莱斯网信技术研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。