实时识别突发事件微博数据流的检测系统技术方案

技术编号:27935688 阅读:20 留言:0更新日期:2021-04-02 14:15
本发明专利技术公开的一种实时识别突发事件微博数据流的检测系统,无需关于事件的任何先验知识,快速准确检测和识别突发事件。本发明专利技术通过下述技术方案实现:利用爬虫工具实时爬取本文数据;实体抽取模块抽取多种类型的命名实体,采用趋势识别模块获取关于不同地域的热词列表;实体过滤模块滤除不具有热度的实体;相似度计算模块建立窗口内的共生矩阵,计算实体相似度,构建实体关系图;相似度过滤模块滤除实体关系图中数值较小的边;实体聚类模块对实体关系图使用社区发现算法得到相应的聚类集合;聚类链接模块对事件窗口内的事件进行持续跟踪;聚类定级模块对经过聚类链接的聚类结果依据其所包含的热词数目进行定级,数据存储模块将存储聚类定级的信息。

【技术实现步骤摘要】
实时识别突发事件微博数据流的检测系统
本专利技术属于突发事件检测与识别
,特别是涉及一种实时识别突发事件微博数据流的检测系统。
技术介绍
随着互联网技术的飞速发展,社交网络服务、新闻、论坛、微博,以及智能手机应用为载体的社交平台的快速发展,一些新兴的互联网服务已经成为人们传播以及获取信息的重要平台。尤其是近几年来,微博的发展正异军突起,并且凭借其实时性和便捷性受到广大用户的喜爱。人们能够在第一时间布和获取关于“真实世界”某一突发事件的相关信息。例如,新浪微博中国卫健委官方认证账号已成为许多中国人了解新冠肺炎实时疫情状态的首要途径。近年来,利用Twitter、Facebook、新浪微博等互联网技术提供的公开数据检测和识别真实世界的突发事件受到业界和学术界的持续关注。通过这些具有高度互动性的社交平台,人们能够对“真实世界”的突发事件做出实时反应,可以作为社会热点事件的有效指示器。理解事件发生时在社交媒体上具备什么样的发生和发展过程有助于地方政府和相关组织机构辅助决策和快速行动。从社交平台所获取的数据属于流式数据,流式数据的特点是快速、大量、无序,并且要求快速的响应。并且这些信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对信息资源进行整合和利用。如何满足流式数据的处理需求也成为当前研究的一个热点课题。流式数据处理系统中常常要提取出事件,进而针对将来发生在流式数据上的事件做预测分析处理和对事件和主题的表达,以方便有效地获得想要了解的问题,满足相关的应用需求。使用流式数据自动检测和分类事件,对于需要作出相应反应的公共安全组织,卫生防疫机构等,都具有很高的参考价值。基于社交平台数据流的事件的检测与识别面临许多挑战,仍处于探索阶段。首先,社交平台通常会对在线发送的帖子的长度作出限制,这意味着只有少量的文本可以用于分析。其次,在社交平台数据流中还常常使用非正式、不规则和缩写的词。最后,社交平台也常常存在着广告、色情、病毒和网络钓鱼等恶意内容。本专利技术主要尝试如何在实时情况下基于微博数据流对突发事件进行检测与识别。对于事件检测与识别,具体包括事件演化演变等。通过历史事件信息实现对事件的持续追踪,借此来探究事件的演化和演变。目前,尽管在实时事件检测与识别等方面存在不少研究成果和一些有效的解决方案,但这些突发事件识别方法大多仅实现了对全球事件或区域性事件(如国家)的检测与识别(例如大规模自然灾害、武装冲突等),并未对小范围的事件(如局部疫情,森林火灾等)进行检测与识别。除此之外,一些方法多需要人为设定事件数目,事件种类等信息,这往往需要大料的先验知识和人工标注数据。而本专利技术实现的方法无需任何先验知识,也不需要人工标注,即可生成关于突发事件的词云描述。
技术实现思路
为了解决上述问题,本专利技术针对现有大规模微博消息流研究的不足之处和微博事件流数据结构及内容形式的复杂性,提供一种无需关于事件的任何先验知识,即可快速且准确的检测和识别突发事件微博数据流的检测系统。为达到上述目的,本专利技术采用的技术方案是:一种实时识别突发事件微博数据流的检测系统,包括:依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块,相似度计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块,构建一个从原始微博数据流到事件检测、识别和存储的全流程系统,其特征在于:实体抽取模块基于RoBERTa-wwm-large-ext模型,并在CLUE学术组织发布的NER数据集上进行训练,用于抽取多种类型的命名实体;使用爬虫技术从各省市县认证的官方微博及各大V账号实时地爬取文本数据,并对爬取的数据进行数据清洗。将清洗后的数据输入到实体抽取模块,利用实体抽取模块抽取数据中所包含的命名实体;趋势识别模块将微博作为突发事件网络舆情的数据来源,抽取微博数据中的命名实体和地理区域,以<实体,地区,计数>方式进行存储,利用“地域-实体”二元组计算得到关于不同地域的热词列表;实体过滤模块持续维护地区热词表,对该热词表进行周期性的更新,利用地区热词表过滤掉那些不具有热度的实体;相似度计算模块对实体过滤后剩余的实体进行词频(Frequency)计算,同时建立一个确定窗口内的共生矩阵(co-occurrences),依靠词频计数和表征了实体之间相互联系的共生矩阵计算实体间的相似度,以实体相似度的数值为边,构建实体关系图(Graph);相似度过滤模块滤除实体关系图中相似度小于阈值S的边;‘实体聚类模块利用Louvain算法计算图中区域的模块度,采用分辨率R(Resolution)调整图中社区(Communities)的细粒度,得到相应的聚类集合CT;聚类链接模块将上一时间窗口的聚类集合CT-1与当前时间窗口聚类集合CT-相邻之间聚类看做是二分图最大匹配(BipartiteMatching)问题,对每一个事件窗口内的聚类基本元素(Cluster)和事件进行持续跟踪,找出聚类链接;聚类定级模块对经过聚类链接的聚类结果,依据其所包含的热词数目进行定级;最后,数据存储模块将聚类链接,聚类定级等信息做相应的存储。本专利技术相比于现在技术具有如下有益效果:本专利技术采用[l2]依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块,相似度计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块构建一个从原始微博数据流到事件检测、识别和存储的全流程系统,无需关于事件的任何先验知识,无需任何先验知识,也不需要人工标注,即可生成关于突发事件的词云描述,快速且准确的检测和识别突发事件。本专利技术使用爬虫技术从官方认证的微博及各大V账号实时地爬取文本数据,并对爬取的数据进行数据清洗,去除中文停用词,存储文本数据所指的地理位置,能够更早地检测到突发话题[l3]。本专利技术采用的实体抽取模块基于RoBERTa-wwm-large-ext模型,在CLUE组织发布的NER数据集上进行训练。最终在中文细粒度命名实体识别任务上达到了明显优于BERT和Bi-Lstm+CRF的识别效果。本专利技术采用的趋势识别模块对“地域-实体”二元组进行抽取与计数,对于一条给定的微博数据,抽取有用的实体和地理区域,并以<实体,地区,计数>的方式进行存储,利用“地域-实体”二元组计算得到关于不同地域的热词列表。本专利技术采用的实体过滤模块持续维护地区热词表,对该热词列表进行周期性的更新,利用地区热词表过滤掉那些不具有热度的实体;本专利技术采用的相似度计算模块对实体过滤后剩余的实体进行词频(Frequency)计算,同时建立一个确定窗口内的共生矩阵(co-occurrences),依靠词频计数和表征了词与词之间相互联系的共生矩阵计算相似度,以实体相似度的数值为边,构建实体关系图(Graph)。;本专利技术采用的相似度过滤模块滤除实体关系图中实体节点间相似度小于阈值S的,经过相似度过滤模块处理后的实体关系图可以使用图论中的社区发现方法本文档来自技高网
...

【技术保护点】
1.一种实时识别突发事件微博数据流的检测系统,包括:依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块,相似度计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块,构建一个从原始微博数据流到事件检测、识别和存储的全流程系统,其特征在于:实体抽取模块基于RoBERTa-wwm-large-ext模型,并在CLUE学术组织发布的NER数据集上进行训练,用于抽取多种类型的命名实体;使用爬虫技术从各省市县认证的官方微博及各大V账号实时地爬取文本数据,并对爬取的数据进行数据清洗;将清洗后的数据输入到实体抽取模块,利用实体抽取模块实时地抽取数据中所包含的命名实体;趋势识别模块将微博作为突发事件网络舆情的数据来源,抽取微博数据中有的命名实体和地理区域,以实体,地区,计数方式进行存储,利用“地域-实体”二元组计算得到关于不同地域的热词列表;实体过滤模块持续维护地区热词表,对该热词表进行周期性的更新,利用地区热词表过滤掉那些不具有热度的实体;相似度计算模块对实体过滤后剩余的实体进行词频(Frequency)计算,同时建立一个确定窗口内的实体共生矩阵(co-occurrences),依靠词频计数和共生矩阵计算实体相似度,以实体相似度的数值为边,构建实体关系图(Graph);相似度过滤模块滤除实体关系图中相似度小于阈值S的边;实体聚类模块利用Louvain算法计算实体关系图中的社区的模块度,采用分辨率R(Resolution)调整图中社区(Communities)的细粒度,得到相应的聚类集合C...

【技术特征摘要】
1.一种实时识别突发事件微博数据流的检测系统,包括:依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块,相似度计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块,构建一个从原始微博数据流到事件检测、识别和存储的全流程系统,其特征在于:实体抽取模块基于RoBERTa-wwm-large-ext模型,并在CLUE学术组织发布的NER数据集上进行训练,用于抽取多种类型的命名实体;使用爬虫技术从各省市县认证的官方微博及各大V账号实时地爬取文本数据,并对爬取的数据进行数据清洗;将清洗后的数据输入到实体抽取模块,利用实体抽取模块实时地抽取数据中所包含的命名实体;趋势识别模块将微博作为突发事件网络舆情的数据来源,抽取微博数据中有的命名实体和地理区域,以实体,地区,计数方式进行存储,利用“地域-实体”二元组计算得到关于不同地域的热词列表;实体过滤模块持续维护地区热词表,对该热词表进行周期性的更新,利用地区热词表过滤掉那些不具有热度的实体;相似度计算模块对实体过滤后剩余的实体进行词频(Frequency)计算,同时建立一个确定窗口内的实体共生矩阵(co-occurrences),依靠词频计数和共生矩阵计算实体相似度,以实体相似度的数值为边,构建实体关系图(Graph);相似度过滤模块滤除实体关系图中相似度小于阈值S的边;实体聚类模块利用Louvain算法计算实体关系图中的社区的模块度,采用分辨率R(Resolution)调整图中社区(Communities)的细粒度,得到相应的聚类集合CT;聚类链接模块将上一时间窗口的聚类集合CT-1与当前时间窗口聚类集合CT-相邻之间聚类看做是二分图最大匹配(BipartiteMatching)问题,对每一个事件窗口内的聚类基本元素(Cluster)和事件进行持续跟踪,找出聚类链接;聚类定级模块对经过聚类链接的聚类结果,依据其所包含的热词数目进行定级;最后,数据存储模块将聚类链接,聚类定级等信息做相应的存储。


2.如权利要求1所述的实时识别突发事件微博数据流的检测系统,其特征在于:趋势识别模块根据实体抽取模型抽取命名实体,同时结合数据清洗阶段得到的地理位置信息,建立一个地区热词表,对地区热词评分的模块度和紧密度评价模型,得到如公式(1)所示的实际表示了某一实体e在某一地区d的出现次数,并且E(d,e)实际表示了某一实体在下一个时间窗口出现的次数的期望值:
将每一个期望评分靠前的实体或称热词存储在内存中方便后续使用,
其中,Ns表示一个较短时间窗口内的计数,Nl表示一个较长时间窗口的计数,d表示地区,e表示某一命名实体。


3.如权利要求1所述的实时识别突发事件微博数据流的检测系统,其特征在于:相似度计算模块判断不同命名实体之间的相似度,采用如下所示的相似度计算公式(2)计算实体X和Y的余弦相似度:


4.如权利要求3所述的实时识别突发事件微博数据流的检测系统,其特征在于:相似度过滤模块对实体...

【专利技术属性】
技术研发人员:庄旭尹可鑫甘翼袁鑫丛迅超李贵
申请(专利权)人:西南电子技术研究所中国电子科技集团公司第十研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1