基于流式数据的事件脉络生成方法、装置、电子设备制造方法及图纸

技术编号:40635254 阅读:24 留言:0更新日期:2024-03-13 21:19
一种基于流式数据的事件脉络生成方法、装置、电子设备,方法包括:输入多个向量,对于多个向量中第一部分向量,输出第一部分向量中每个向量对应的第一类型;对于多个向量中第二部分向量,向聚类模型中输入第二部分向量,输出第二部分向量中每个向量对应的第二类型;判断第一类型和第二类型中每个类型下的向量数量,如果向量数量超过第一预定阈值,则判定类型为待细分类型,通过社区发现模块输出待细分类型下的所有向量的子类型;如果向量数量未超过第一预定阈值,则判定类型为无需细分类型;获取对应的若干事件脉络。本发明专利技术实现了对流式数据对应事件的细粒度的分类,使得事件的划分关联性更强,最终获取更完备可靠的事件脉络。

【技术实现步骤摘要】

本专利技术涉及网络监控,尤其涉及一种基于流式数据的事件脉络生成方法、装置、电子设备


技术介绍

1、近年来随着互联网技术的发展和普及,互联网新闻报道和社交媒体已经成为获取信息的重要媒介。互联网颠覆了传统媒体在信息传播上的统治力,这使其为监控事件及其演化提供了宝贵数据。而网络中文本数据量巨大和质量的参差,使得监控事件及事件间的演化具有极大挑战。对互联网中具有同一主题的事件及其演化进行提取,能够极大地帮助我们对某一事件进行全面了解。这需要我们先检测事件,然后对这些事件进行聚类从而获得具有同一主题的事件,并最终以一种用户友好的方式将事件呈现出来。但事件脉络的生成中仍然存在一些问题,例如,如何提高脉络结构的连贯性及一致性;如何从文本集合提取与事件对应的强相关的文本集合等。

2、公开于该
技术介绍
部分的信息仅仅旨在加深对本专利技术的总体
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。


技术实现思路

1、针对现有技术存在的问题,本专利技术提供一种基于流式数据的事件本文档来自技高网...

【技术保护点】

1.一种基于流式数据的事件脉络生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于流式数据的事件脉络生成方法,其特征在于,获取基于流式数据的多个文本,包括:

3.根据权利要求1所述的基于流式数据的事件脉络生成方法,其特征在于,向向量化模型中输入所述多个文本,输出与所述多个文本对应的多个向量,包括:

4.根据权利要求3所述的基于流式数据的事件脉络生成方法,其特征在于,向分类模型中输入所述多个向量,对于所述多个向量中第一部分向量,所述第一部分向量分类成功,输出所述第一部分向量中每个向量对应的第一类型,包括:

5.根据权利要求1所述...

【技术特征摘要】

1.一种基于流式数据的事件脉络生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于流式数据的事件脉络生成方法,其特征在于,获取基于流式数据的多个文本,包括:

3.根据权利要求1所述的基于流式数据的事件脉络生成方法,其特征在于,向向量化模型中输入所述多个文本,输出与所述多个文本对应的多个向量,包括:

4.根据权利要求3所述的基于流式数据的事件脉络生成方法,其特征在于,向分类模型中输入所述多个向量,对于所述多个向量中第一部分向量,所述第一部分向量分类成功,输出所述第一部分向量中每个向量对应的第一类型,包括:

5.根据权利要求1所述的基于流式数据的事件脉络生成方法,其特征在于,对于所述多个向量中第二部分向量,所述第二部分向量分类失败,向聚类模型中输入所述第二部分向量,输出所述第二部分向量...

【专利技术属性】
技术研发人员:刘昕明王云甘蔡刚曹东坡陈家兵
申请(专利权)人:国科智安北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1