基于用户发帖行为模式的多线索社会事件总结方法技术

技术编号:14173565 阅读:57 留言:0更新日期:2016-12-13 01:43
本发明专利技术公开了一种基于用户发帖行为模式的多线索社会事件总结方法,用于解决现有多线索社会事件总结方法实用性差的技术问题。技术方案是根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明专利技术根据用户发帖的行为模式获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。

Multi cue social event summarization method based on user posting behavior pattern

The invention discloses a method for summarizing the multi clue social events based on the user posting behavior pattern, which is used to solve the technical problems of the existing multi clue social event summary method. The technical scheme is based on the relevant keywords to get the micro-blog in the social network and the event related to the text and the time field, the text preprocessing. Constructing a graphical model of user posting behavior patterns based on time field T. A graph model for representing the similarity of micro-blog content based on text content A. Identify all connected subgraphs in the graph model T, and each connected subgraph represents the different stages of event development. Identify all connected subgraphs in the graph model A, each of which represents different cues in the event. The elimination of redundant information, the development of the context of multi clues social events summary. According to the behavior mode of the user, the invention can obtain more fine-grained social event summary, reflecting the dynamic development and change of the event, and has strong practicability.

【技术实现步骤摘要】

本专利技术涉及一种多线索社会事件总结方法,特别涉及一种基于用户发帖行为模式的多线索社会事件总结方法
技术介绍
近年来,随着社交媒体,如微博,Twitter等为代表的社交网络的快速发展,基于社交媒体数据进行社会事件总结的工作受到了越来越多的研究人员的关注。当某一社会事件发生时,会有大量的用户在第一时间通过社交网络发布相关的信息,进行相关的讨论,这里往往还包含了许多目击者或是现场的第一手信息。与传统媒体相比,社交媒体发布的信息更全面,然而,由于未经过专业编辑的整理过滤,这些信息往往是杂乱的。因此,需要通过有效地措施对这些社交媒体信息进行整理过滤,以得到清晰的结果用于社会事件总结,为人们了解社会事件提供有价值的参考。专利CN1710563提出了一种重要新闻事件检测和摘要的方法,该专利主要面向新闻视频数据,将多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要。专利CN104850606A公开了一种移动群智感知社会事件的总结方法,利用Tucker张量分解和K-means聚类分析对社会事件进行总结。专利CN104182504A公开了一种新闻事件的动态跟踪和总结算法,采用社区发现算法从词共现图中提取与新闻事件相关的多个主题,对主题集合中的每个主题按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。这些专利的不足之处就是忽略了社会事件中有多个线索,每个线索都有自己的发展情况。比如在天津大爆炸事件中,有救援情况的线索,有清理事故现场的线索,有受灾群众安置的线索等。只有区分这些线索才可以得到一个清晰可读的社会事件总结,便于用户了解社会事件不同方面的发展概况。
技术实现思路
为了克服现有多线索社会事件总结方法实用性差的不足,本专利技术提供一种基于用户发帖行为模式的多线索社会事件总结方法。该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本专利技术根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。本专利技术解决其技术问题所采用的技术方案:一种基于用户发帖行为模式的多线索社会事件总结方法,其特点是包括以下步骤:步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词。步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段。步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索。步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结。步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结。其中,子模性函数为, f ( S ) = Σ i ∈ V \\ S Σ j ∈ S s i m ( i , j ) - λ Σ i , j ∈ S : i ≠ j s i m ( i , j ) ]]>其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小。利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。本专利技术的有益效果是:该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本专利技术根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。下面结合附图和具体实施方式对本专利技术作详细说明。附图说明图1是本专利技术基于用户发帖行为模式的多线索社会事件总结方法的流程图。具体实施方式参照图1。本专利技术基于用户发帖行为模式的多线索社会事件总结方法具体步骤如下:步骤1、根据关键字“天津塘沽大爆炸”利用网络爬虫获得关于天津大爆炸事件的微博,提取微博中的正文内容及时间字段,利用分词工具对正文内容进行分词并过滤停止词。步骤2、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。步骤3、利用TF-IDF计算正文内容中的关键词,如消防员、震感、小区、事故现场等。根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。步骤4、利用深度优先算法搜索图模型T中的所有连通子图ST,不同的连通子图代表事件的不同发展本文档来自技高网
...
基于用户发帖行为模式的多线索社会事件总结方法

【技术保护点】
一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T;步骤三、利用TF‑IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A;步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结;步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结;其中,子模性函数为,f(S)=Σi∈V\SΣj∈Ssim(i,j)-λΣi,j∈S:i≠jsim(i,j)]]>其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小;利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。...

【技术特征摘要】
1.一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T;步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A;步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结;步骤七、利用贪心算法使子模性函数最大...

【专利技术属性】
技术研发人员:郭斌张佳凡於志文欧阳逸周兴社
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1