The invention discloses a method for summarizing the multi clue social events based on the user posting behavior pattern, which is used to solve the technical problems of the existing multi clue social event summary method. The technical scheme is based on the relevant keywords to get the micro-blog in the social network and the event related to the text and the time field, the text preprocessing. Constructing a graphical model of user posting behavior patterns based on time field T. A graph model for representing the similarity of micro-blog content based on text content A. Identify all connected subgraphs in the graph model T, and each connected subgraph represents the different stages of event development. Identify all connected subgraphs in the graph model A, each of which represents different cues in the event. The elimination of redundant information, the development of the context of multi clues social events summary. According to the behavior mode of the user, the invention can obtain more fine-grained social event summary, reflecting the dynamic development and change of the event, and has strong practicability.
【技术实现步骤摘要】
本专利技术涉及一种多线索社会事件总结方法,特别涉及一种基于用户发帖行为模式的多线索社会事件总结方法。
技术介绍
近年来,随着社交媒体,如微博,Twitter等为代表的社交网络的快速发展,基于社交媒体数据进行社会事件总结的工作受到了越来越多的研究人员的关注。当某一社会事件发生时,会有大量的用户在第一时间通过社交网络发布相关的信息,进行相关的讨论,这里往往还包含了许多目击者或是现场的第一手信息。与传统媒体相比,社交媒体发布的信息更全面,然而,由于未经过专业编辑的整理过滤,这些信息往往是杂乱的。因此,需要通过有效地措施对这些社交媒体信息进行整理过滤,以得到清晰的结果用于社会事件总结,为人们了解社会事件提供有价值的参考。专利CN1710563提出了一种重要新闻事件检测和摘要的方法,该专利主要面向新闻视频数据,将多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要。专利CN104850606A公开了一种移动群智感知社会事件的总结方法,利用Tucker张量分解和K-means聚类分析对社会事件进行总结。专利CN104182504A公开了一种新闻事件的动态跟踪和总结算法,采用社区发现算法从词共现图中提取与新闻事件相关的多个主题,对主题集合中的每个主题按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。这些专利的不足之处就是忽略了社会事件中有多个线索,每个线索都有自己的发展情况。比如在天津大爆炸事件中,有救援情况的线索,有清理事故现场的线索,有受灾群众安置的线索等。只有区 ...
【技术保护点】
一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T;步骤三、利用TF‑IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A;步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到 ...
【技术特征摘要】
1.一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T;步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A;步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结;步骤七、利用贪心算法使子模性函数最大...
【专利技术属性】
技术研发人员:郭斌,张佳凡,於志文,欧阳逸,周兴社,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。