【技术实现步骤摘要】
一种突发事件检测方法及装置
[0001]本专利技术涉及自然语言处理领域,更具体的说,是涉及一种突发事件检测方法及装置。
技术介绍
[0002]互联网技术飞速发展并日益成熟的今天,互联网已经成为信息传播的主要途径之一。当突发事件发生后,更多的人习惯从互联网获取新闻等相关信息,尤其是通过社交应用、即时通信应用等其他网络平台获取所谓的“事实真相”并进行转发,因此网络对社会舆论具有一定的放大作用。
[0003]随着工业技术的不断成熟,越来越多的工业产品被制造出来,极大的改善了人们的日常生活,由于其有着庞大的受用群体,网络上有关工业产品的新闻越来越多,因此对工业产品新闻的舆论检测和控制具有极大的挑战性。
[0004]突发事件检测能够合理地控制和引导舆论导向,减少突发事件造成的不必要危害并维持社会的稳定,为舆情应急管理提供决策支持信息。当前的工业产品突发事件检测方法无法准确的划定突发事件的范围,从而存在突发事件检测准确率低的问题。
技术实现思路
[0005]有鉴于此,本专利技术提供如下技术方案:
...
【技术保护点】
【技术特征摘要】
1.一种突发事件检测方法,其特征在于,包括:对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数;基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词;对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵;对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。2.根据权利要求1所述的突发事件检测方法,其特征在于,所述对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,包括:对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据;对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集。3.根据权利要求2所述的突发事件检测方法,其特征在于,所述对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据,包括:过滤掉新闻数据集中的链接信息和符号内容,并根据所述新闻数据集中包含新闻的发布时间进行时段划分。4.根据权利要求2所述的突发事件检测方法,其特征在于,所述对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集,包括:采用分词工具对每个时段的所述滤噪数据进行分词,得到分词结果;过滤掉所述分词结果中的虚词、停用词以及少于三个词语的新闻数据。5.根据权利要求1所述的突发事件检测方法,其特征在于,所述基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词,包括:基于所述预处理数据集和所述词频数据集确定所述预处理数据集中每个实词词语的基础权重和突发权重,所述突发权重表征实词词语相对于突发事件关联词语的重要性;基于实词词语所属的新闻的展示信息确定该实词词语对应新闻的关注度,所述展示信息至少包括浏览量、转发量、点赞量和评论量中的至少一种;基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。6.根据权利要求5所述的突发事件检测方法,其特征在于,所述基于实词词语的基础权重、突发权重和...
【专利技术属性】
技术研发人员:张君维,丰苏,马志远,李静,王欢,王庆春,于大东,郭爽,
申请(专利权)人:国家市场监督管理总局信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。