当前位置: 首页 > 专利查询>西南电子技术研究所中国电子科技集团公司专利>正文

实时识别突发事件微博数据流的检测系统技术方案

技术编号：27935688 阅读：20 留言：0更新日期：2021-04-02 14:15

本发明专利技术公开的一种实时识别突发事件微博数据流的检测系统，无需关于事件的任何先验知识，快速准确检测和识别突发事件。本发明专利技术通过下述技术方案实现：利用爬虫工具实时爬取本文数据；实体抽取模块抽取多种类型的命名实体，采用趋势识别模块获取关于不同地域的热词列表；实体过滤模块滤除不具有热度的实体；相似度计算模块建立窗口内的共生矩阵，计算实体相似度，构建实体关系图；相似度过滤模块滤除实体关系图中数值较小的边；实体聚类模块对实体关系图使用社区发现算法得到相应的聚类集合；聚类链接模块对事件窗口内的事件进行持续跟踪；聚类定级模块对经过聚类链接的聚类结果依据其所包含的热词数目进行定级，数据存储模块将存储聚类定级的信息。

全部详细技术资料下载

【技术实现步骤摘要】
实时识别突发事件微博数据流的检测系统
本专利技术属于突发事件检测与识别
，特别是涉及一种实时识别突发事件微博数据流的检测系统。
技术介绍
随着互联网技术的飞速发展，社交网络服务、新闻、论坛、微博，以及智能手机应用为载体的社交平台的快速发展，一些新兴的互联网服务已经成为人们传播以及获取信息的重要平台。尤其是近几年来，微博的发展正异军突起，并且凭借其实时性和便捷性受到广大用户的喜爱。人们能够在第一时间布和获取关于“真实世界”某一突发事件的相关信息。例如，新浪微博中国卫健委官方认证账号已成为许多中国人了解新冠肺炎实时疫情状态的首要途径。近年来，利用Twitter、Facebook、新浪微博等互联网技术提供的公开数据检测和识别真实世界的突发事件受到业界和学术界的持续关注。通过这些具有高度互动性的社交平台，人们能够对“真实世界”的突发事件做出实时反应，可以作为社会热点事件的有效指示器。理解事件发生时在社交媒体上具备什么样的发生和发展过程有助于地方政府和相关组织机构辅助决策和快速行动。从社交平台所获取的数据属于流式数据，流式数据的特点是快速、大量、无序，并且要求快速的响应。并且这些信息资源具有信息异质、异构、分散、重复现象严重的特点，缺少统一的形式化表达，形成各种各样的“信息孤岛”，很难对信息资源进行整合和利用。如何满足流式数据的处理需求也成为当前研究的一个热点课题。流式数据处理系统中常常要提取出事件，进而针对将来发生在流式数据上的事件做预测分析处理和对事件和主题的表达，以方便有效地获得想要了解的问题，满足...

【技术保护点】
1.一种实时识别突发事件微博数据流的检测系统，包括：依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块，相似度计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块，构建一个从原始微博数据流到事件检测、识别和存储的全流程系统，其特征在于：实体抽取模块基于RoBERTa-wwm-large-ext模型，并在CLUE学术组织发布的NER数据集上进行训练，用于抽取多种类型的命名实体；使用爬虫技术从各省市县认证的官方微博及各大V账号实时地爬取文本数据，并对爬取的数据进行数据清洗；将清洗后的数据输入到实体抽取模块，利用实体抽取模块实时地抽取数据中所包含的命名实体；趋势识别模块将微博作为突发事件网络舆情的数据来源，抽取微博数据中有的命名实体和地理区域，以实体，地区，计数方式进行存储，利用“地域-实体”二元组计算得到关于不同地域的热词列表；实体过滤模块持续维护地区热词表，对该热词表进行周期性的更新，利用地区热词表过滤掉那些不具有热度的实体；相似度计算模块对实体过滤后剩余的实体进行词频(Frequency)计算，同时建立一个确定窗口内的实体共生矩阵(co-occurrences)，依...

【技术特征摘要】
1.一种实时识别突发事件微博数据流的检测系统，包括：依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块，相似度计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块，构建一个从原始微博数据流到事件检测、识别和存储的全流程系统，其特征在于：实体抽取模块基于RoBERTa-wwm-large-ext模型，并在CLUE学术组织发布的NER数据集上进行训练，用于抽取多种类型的命名实体；使用爬虫技术从各省市县认证的官方微博及各大V账号实时地爬取文本数据，并对爬取的数据进行数据清洗；将清洗后的数据输入到实体抽取模块，利用实体抽取模块实时地抽取数据中所包含的命名实体；趋势识别模块将微博作为突发事件网络舆情的数据来源，抽取微博数据中有的命名实体和地理区域，以实体，地区，计数方式进行存储，利用“地域-实体”二元组计算得到关于不同地域的热词列表；实体过滤模块持续维护地区热词表，对该热词表进行周期性的更新，利用地区热词表过滤掉那些不具有热度的实体；相似度计算模块对实体过滤后剩余的实体进行词频(Frequency)计算，同时建立一个确定窗口内的实体共生矩阵(co-occurrences)，依靠词频计数和共生矩阵计算实体相似度，以实体相似度的数值为边，构建实体关系图(Graph)；相似度过滤模块滤除实体关系图中相似度小于阈值S的边；实体聚类模块利用Louvain算法计算实体关系图中的社区的模块度，采用分辨率R(Resolution)调整图中社区(Communities)的细粒度，得到相应的聚类集合CT；聚类链接模块将上一时间窗口的聚类集合CT-1与当前时间窗口聚类集合CT-相邻之间聚类看做是二分图最大匹配(BipartiteMatching)问题，对每一个事件窗口内的聚类基本元素(Cluster)和事件进行持续跟踪，找出聚类链接；聚类定级模块对经过聚类链接的聚类结果，依据其所包含的热词数目进行定级；最后，数据存储模块将聚类链接，聚类定级等信息做相应的存储。

2.如权利要求1所述的实时识别突发事件微博数据流的检测系统，其特征在于：趋势识别模块根据实体抽取模型抽取命名实体，同时结合数据清洗阶段得到的地理位置信息，建立一个地区热词表，对地区热词评分的模块度和紧密度评价模型，得到如公式(1)所示的实际表示了某一实体e在某一地区d的出现次数，并且E(d,e)实际表示了某一实体在下一个时间窗口出现的次数的期望值：
将每一个期望评分靠前的实体或称热词存储在内存中方便后续使用，
其中，Ns表示一个较短时间窗口内的计数，Nl表示一个较长时间窗口的计数，d表示地区，e表示某一命名实体。

3.如权利要求1所述的实时识别突发事件微博数据流的检测系统，其特征在于：相似度计算模块判断不同命名实体之间的相似度，采用如下所示的相似度计算公式(2)计算实体X和Y的余弦相似度：

4.如权利要求3所述的实时识别突发事件微博数据流的检测系统，其特征在于：相似度过滤模块对实体...

【专利技术属性】
技术研发人员：庄旭，尹可鑫，甘翼，袁鑫，丛迅超，李贵，
申请(专利权)人：西南电子技术研究所中国电子科技集团公司第十研究所，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人