大规模数据下的新闻事件自动挖掘系统及其方法技术方案

技术编号:8533082 阅读:192 留言:0更新日期:2013-04-04 16:14
本发明专利技术公开了一种大规模数据下的新闻事件自动挖掘系统及其方法,包括接收模块,接收一个时间片段内推送到所述事件挖掘系统的新闻数据,并将上一时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘;聚类处理模块,对接收到的新闻数据按照彼此间的标题或正文文本的相似程度进行层次式聚类处理,以挖掘出具有相同事件属性的新闻族;事件合并模块,将经聚类处理形成的新事件与历史上形成的旧事件按照所述事件间的相似程度进行合并处理;缓存处理模块,将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处理。采用本发明专利技术,能够对海量新闻数据进行自动挖掘,并满足时效性和准确性要求。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,尤其涉及。
技术介绍
随着互联网技术的蓬勃发展,互联网上的新闻报道也呈现爆发式的增长。如何在海量的新闻信息中快速挖掘出需要的信息是一件值得研究的问题。现有的层次式聚类是对给定的数据集合进行层次式的合并(或分解)的处理过程,在数据处理的过程中将根据数据间的相似程度来决定彼此之间合并的顺序。层次式聚类法与其他聚类或者分类方法相比,优点是层次式聚类法并不需要预先知道数据将会被划分为类别的数目,更适合互联网上新闻事件数目无法确切统计这一特点。但是层次聚类由于其算法本身的特性决定了其计算的复杂度较高,不利于在海量数据集合上进行扩展。因此面对互联网海量的新闻报道,如何设计一种能够在海量数据集合下使用的新闻事件挖掘技术是很有意义的。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种,在新闻信息量较大且不断递增时,能够对海量的新闻报道内容进行自动挖掘,动态修正挖掘结果,并满足时效性和准确性的要求。为达到上述目的,本专利技术的技术方案是这样实现的 一种大规模数据下的新闻事件自动挖掘系统,主要包括接收模块、聚类处理模块、事件合并模块和缓存处理模块;其中 所述接收本文档来自技高网...

【技术保护点】
一种大规模数据下的新闻事件自动挖掘系统,其特征在于,主要包括接收模块、聚类处理模块、事件合并模块和缓存处理模块;其中:所述接收模块,用于接收一个时间片段内推送到所述事件挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘;所述聚类处理模块,用于对接收到的新闻数据按照彼此间的标题或正文文本的相似程度进行层次式聚类处理,以挖掘出具有相同事件属性的若干个族,即新闻族;将所述新闻簇作为事件合并模块的输入,以便与历史事件进行比较;所述事件合并模块,用于将经聚类处理形成的新事件与历史上形成的旧事件按照所述事件间的相似程度进行合并处理;以及所述缓存处理模块,将新形成的事件与经...

【技术特征摘要】
1.一种大规模数据下的新闻事件自动挖掘系统,其特征在于,主要包括接收模块、聚类处理模块、事件合并模块和缓存处理模块;其中所述接收模块,用于接收一个时间片段内推送到所述事件挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘;所述聚类处理模块,用于对接收到的新闻数据按照彼此间的标题或正文文本的相似程度进行层次式聚类处理,以挖掘出具有相同事件属性的若干个族,即新闻族;将所述新闻簇作为事件合并模块的输入,以便与历史事件进行比较;所述事件合并模块,用于将经聚类处理形成的新事件与历史上形成的旧事件按照所述事件间的相似程度进行合并处理;以及所述缓存处理模块,将新形成的事件与经过修改的历史事件发送到缓存模块作缓存处理。2.根据权利要求1所述大规模数据下的新闻事件自动挖掘系统,其特征在于,所述时间合并模块,还用于对经过修改的旧事件与其他事件进行合并处理。3.一种大规模数据下的新闻事件自动挖掘方法,其特征在于,该方法包括A、接收一个时间片段内推送到事件自动挖掘系统的新闻数据,并将上一个时间片段内积攒的新闻数据发送给聚类处理模块进行事件挖掘处理;B、利用聚类处理模块对接收的新闻数据按照彼此之间标题或正文文本的相似程度进行层次式的聚类处理,挖掘出具有相同事件属性的若干个簇,即新闻族;然后将新闻簇作为下一个处理阶段的事件合并模块的输入;C、通过事件合并模块对经过聚类处理形成的新事件与历史旧事件按照事件间的相似程度进行合并处理;D、将新形成的事件或经过修...

【专利技术属性】
技术研发人员:付万宇黄丛蕊薛飞徐海瑞杨之光杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1