【技术实现步骤摘要】
本专利技术涉及事件信息挖掘和相似性提取领域,尤其涉及一种基于相似性建模的获取事件脉络的方法及其系统。
技术介绍
现实生活中每时每刻都在发生着事件,事件通过人的感受、记忆、分析形成了片段性的文字描述。如今是网络迅速发展的时代,也是信息层出不穷的时代,而新闻阅读已经成为大多数网民每天必不可少的一种习惯或者行为,每天也同时有海量的新闻被无数媒体发布出来,如何能从这些媒体选取重要的新闻和感兴趣的事件进行阅读,已经成为了大多数网民的需求。现有的中国专利申请号为201510324990.9的基于微博的事件脉络获取方法和系统,所述方法包括:获取统计时间段内针对预定的专题所包含的事件的原创微博及其转发微博的信息;计算事件的原创微博及其转发微博的信息在统计时间段内对应的关于专题的事件热度时间分布;根据统计时间段内专题的事件热度时间分布,从统计时间段内选取多个事件脉络事件节点,及其对应的节点事件构成专题的事件脉络。该专利技术的技术方案实现利用微博快速、准确的获取预定专题所包含事件的事件脉络。但是在生活中我们获取新闻不只是通过微博,还会通过各大新闻网站、微信和论坛获取新闻,而该专利技 ...
【技术保护点】
一种基于事件相似性建模的获取事件脉络的方法,其特征在于:方法的步骤如下:S1、获取相应事件的信息;S2、根据事件的信息建立数据库,并按照一定的时间窗D的大小分别存储相应的事件;S3、对数据库里的数据信息进行深度挖掘,建立词汇网络模型和事件库,获取相应的motif结构保存到事件库;S4、根据不同的事件类型进行事件脉络的获取。
【技术特征摘要】
1.一种基于事件相似性建模的获取事件脉络的方法,其特征在于:方法的步骤如下:S1、获取相应事件的信息;S2、根据事件的信息建立数据库,并按照一定的时间窗D的大小分别存储相应的事件;S3、对数据库里的数据信息进行深度挖掘,建立词汇网络模型和事件库,获取相应的motif结构保存到事件库;S4、根据不同的事件类型进行事件脉络的获取。2.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法,其特征在于:所述S1中的获取事件信息的技术包括网虫爬取技术。3.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法,其特征在于:所述S2中的数据库信息包括新闻信息、微博微信评论信息和论坛评论信息。4.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法,其特征在于:所述S3的具体步骤如下:S31、提取事件语料中的词语;对语料进行分词、去停用词之后,将得到的词语存入词库,更新词库;S32、构建词汇网络;利用事件的词库信息建立相应的词汇网络模块,并设定一个距离L,只有在一篇文章中距离该词距离没有超过L的,它们之间的无向加权边的权重就加1;S33、获取词汇网络中的结构;设置一个阈值Q,如果无向加权边的权重超过阈值则保留,反之则删除;S34、根据破坏最少的motif结构获取最大划分比例的原则,对词汇网络中的结构进行社团划分,获取相应的社团结构。5.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法,其特征在于:所述S4的具体步骤如下:S41、通过实用LDA主题模型获取相应的主题分类;S42、合并同一个时间窗中的相同事件;根据时间窗D中每个事件包含相应的motif结构的种类,利用Jaccard相似性计算方法计算事件之间的相似性,并设置一个高阈值Y,如果超过这个阈值,就合并为相同事件,否则就不合并;S43、获取时间窗中符合要求的事件;根据实际的需要设定时间窗D的大小,以及相适应的阈值Z,并选择获取时间窗D中topK个事件或者选择阈值达到Z的所有事件;S44、获取事件的脉络;利用事件的主要属性计算每个时间中...
【专利技术属性】
技术研发人员:郭培伦,陈雁,李平,胡栋,孙先,
申请(专利权)人:西南石油大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。