一种新闻聚类方法技术

技术编号:8980750 阅读:271 留言:1更新日期:2013-07-31 22:50
本发明专利技术公开了一种新闻聚类方法,对于一个新闻事件,人们不满足于只看到该事件的某一片断,更希望了解整个事情的来龙去脉。然而在各大新闻网站上,更多地看到的是一个个零散的新闻报道。通过新闻聚类技术,可以将相关新闻报道聚合在一起,让人们对事件的了解更加全面、准确。

【技术实现步骤摘要】

本专利技术属于互联网领域,具体涉及。
技术介绍
新闻文本在Internet上是信息资源的一个主要形式,面对这样一个信息海洋,人们往往会陷入窘迫的境地。一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息迷失,人们难 于找到自己真正所需的信息。因此,能够快速高效地获取所需要的信息是每个人的迫切要求。在这种情况下,对大量的信息自动地提取其概念空间,提供给人一个清晰的框架,帮助人们进行信息的检索和分类则显得必不可少。对于一个新闻事件,人们不满足于只看到该事件的某一片断,更希望了解整个事情的来龙去脉。然而在各大新闻网站上,更多地看到的是一个个零散的新闻报道。通过新闻聚类技术,可以将相关新闻报道聚合在一起,让人们对事件的了解更加全面、准确。
技术实现思路
本专利技术目的是:提供一种可以将相关新闻报道聚合在一起,让人们对事件的了解更加全面、准确的新闻聚类方法。本专利技术的技术方案是:,其特征在于,包括以下步骤:(I)第一次上线时,设置IastUpdateID=O, IastUpdateID为最近处理样本的ID ;(2)从索引库中读 η 篇来进行预处理,IDTDriver.lastUpdateID=n, IDTDriver.1astUpdateID为下次需要开始处理的位置;(3)对当前η篇聚类处理后,得到〈DocID,TopicID〉,其中DocID是在索引里Document的唯一 ID, TopicID是对应的聚类的主题ID,也是唯一分配的;(4)同时输出主题 <DocID_List, FeatureVector, LastUpdateTime〉,其中 DocID_List是对应这个聚类或主题的所有相关文章;FeatureVector是该主题的特征向量;LastUpdateTime是最近一次更新的时间;(5)从IastUpdateID开始,继续往后读N个样本并对其聚类;(6)逐一扫描每一个步骤(4)中输出的主题,判断步骤(5)中是否有新的主题可以和它归并;如果有,更新该主题的DocID_List和它的FeatureVector,同时LastUpdateTime也设置为新的时间;对于被合并的TopicID,<DocID, TopicID)需要更新;(7)如果还有下一个主题,转到步骤(6);如果没有,关闭当前打开的文件,并通知前台程序切换到新的文件,由前台程序负责删除原先的文件;并根据聚类大小、新闻热度等因素调整主题。进一步的,所述步骤(3)中聚类处理的算法为:划分方法、层次方法、基于密度的方法、基于模型的方法、基于网格的方法中的一种或几种。进一步的,所述聚类处理的算法具体为:(I)对于N个样本:ZS = {Z1;Z2,…,ZN},给定一个阈值T ;任取一个样本,例如Z1,把Z1作为第一个类的中心,Z1 = Z1 ;(2)依次取 Zi (i = 2,3,...,N),计算 Z1 与 Zi 的相似度 Dli ;(3)若Dli ( Τ,则判定Zi属于Z1为中心的那个类^Dli > T Jl^Zi作为新的类中心Z2 ;(4)对剩下的样本Zi分别计算与\、Z2的距离Dn、D2i,若其中较小者彡T,则判定Zi属于较小的那一类,否则,就把Zi作为新的一个类的中心z3。(5)如此继续,直至处理完全体样本。进一步的,所述步骤(2)中的η的取值范围为800彡η彡3000。进一步的,所述步骤(5)中的N的取值范围为500彡N彡1500。本专利技术的优点是:根据用户个人的兴趣,提供给用户真正感兴趣的信息,而尽量屏蔽那些不为用户喜欢的信息,随着信息技术的高速发展,尤其是因特网的不断普及,各种在线的电子文档如潮水般地涌来,面对信息 的汪洋大海,如何查找和利用所需的各类信息,往往使用户感到十分的茫然,出现所谓的信息过载,却又很难发现自己感兴趣的信息,而即使找到一些有用的信息,也经常混有很多的“噪音”。本专利技术的技术可以将相关新闻报道聚合在一起,让人们对事件的了解更加全面、准确。不但为使用者提供了方便,而且还有利于信息资源的合理存储。附图说明下面结合附图及实施例对本专利技术作进一步描述:图1为本专利技术的具体实施例的流程图。具体实施例方式实施例:如图1所示的新闻聚类方法,包括以下步骤:(I)第一次上线时,设置IastUpdateID=O, IastUpdateID为最近处理样本的ID ;(2)从索引库中读 η 篇来进行预处理,IDTDriver.lastUpdateID=n, IDTDriver.1astUpdateID为下次需要开始处理的位置;(3)对当前η篇聚类处理后,得到〈DocID, TopicID〉,其中DocID是在索引里Document的唯一 ID, TopicID是对应的聚类的主题ID,也是唯一分配的;(4)同时输出主题 <DocID_List, FeatureVector, LastUpdateTime〉,其中 DocID_List是对应这个聚类或主题的所有相关文章;FeatureVector是该主题的特征向量;LastUpdateTime是最近一次更新的时间;(5)从IastUpdateID开始,继续往后读N个样本并对其聚类;(6)逐一扫描每一个步骤(4)中输出的主题,判断步骤(5)中是否有新的主题可以和它归并;如果有,更新该主题的DocID_List和它的FeatureVector,同时LastUpdateTime也设置为新的时间;对于被合并的TopicID,<DocID, TopicID)需要更新;(7)如果还有下一个主题,转到步骤(6);如果没有,关闭当前打开的文件,并通知前台程序切换到新的文件,由前台程序负责删除原先的文件;并根据聚类大小、新闻热度等因素调整主题。其中的聚类处理的算法为:划分方法、层次方法、基于密度的方法、基于模型的方法、基于网格的方法中的一种或几种。(I)划分方法给定一个包含η个数据对象或元组的数据库,一个划分方法构建数据的c个划分。每个划分表示一个簇,且c < η。通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,在不同簇中的对象是“相异的”。这些聚类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。典型的划分方法包括:K.means、K.medoids、PAM、CLARA、CLARANS 和 EM 等。(2)层次方法层次方法对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成,层次聚类的方法可以迸一步分为凝聚的和分裂的。层次聚类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成,形成多阶段聚类。典型的层次方法有BIRCH、 CUBE、ROCK和CHEMAL0EN等。(3)基于密度的方法提出了基于密度的聚类方法是为了发现任意形状的聚类结果。其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。典型的基于密度的聚类算法包括:DBSCAN、OPTIC本文档来自技高网...

【技术保护点】
一种新闻聚类方法,其特征在于,包括以下步骤:(1)第一次上线时,设置lastUpdateID=0,lastUpdateID为最近处理样本的ID;(2)从索引库中读n篇来进行预处理,IDTDriver.lastUpdateID=n,IDTDriver.lastUpdateID为下次需要开始处理的位置;(3)对当前n篇聚类处理后,得到,其中DocID是在索引里Document的唯一ID,TopicID是对应的聚类的主题ID,也是唯一分配的;(4)同时输出主题,其中DocID_List是对应这个聚类或主题的所有相关文章;FeatureVector是该主题的特征向量;LastUpdateTime是最近一次更新的时间;(5)从lastUpdateID开始,继续往后读N个样本并对其聚类;(6)逐一扫描每一个步骤(4)中输出的主题,判断步骤(5)中是否有新的主题可以和它归并;如果有,更新该主题的DocID_List和它的FeatureVector,同时LastUpdateTime也设置为新的时间;对于被合并的TopicID,需要更新;(7)如果还有下一个主题,转到步骤(6);如果没有,关闭当前打开的文件,并通知前台程序切换到新的文件,由前台程序负责删除原先的文件;并根据聚类大小、新闻热度等因素调整主题。...

【技术特征摘要】
1.一种新闻聚类方法,其特征在于,包括以下步骤: (1)第一次上线时,设置IastUpdateID=O,IastUpdateID为最近处理样本的ID ; (2)从索引库中读η 篇来进行预处理,IDTDriver.lastUpdateID=n, IDTDriver.1astUpdateID为下次需要开始处理的位置; (3)对当前η篇聚类处理后,得到〈DocID,TopicID〉,其中DocID是在索引里Document的唯一 ID,TopicID是对应的聚类的主题ID,也是唯一分配的; (4)同时输出主题<DocID_List, FeatureVector, LastUpdateTime〉,其中 DocID_List是对应这个聚类或主题的所有相关文章;FeatureVector是该主题的特征向量;LastUpdateTime是最近一次更新的时间; (5)从IastUpdateID开始,继续往后读N个样本并对其聚类; (6)逐一扫描每一个步骤(4)中输出的主题,判断步骤(5)中是否有新的主题可以和它归并;如果有,更新该主题的DocID_List和它的FeatureVector,同时LastUpdateTime也设置为新的时间;对于被合并的TopicID,<DocID, TopicID)需要更新;...

【专利技术属性】
技术研发人员:韩松
申请(专利权)人:儒豹苏州科技有限责任公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有1条评论
  • 来自[北京市联通互联网数据中心] 2014年12月10日 16:02
    新闻是指通过报纸电台电视台互联网媒体等途径所传播的信息的一种称谓新闻概念有广义与狭义之分就其广义而言除了发表于报刊广播电视上的评论与专文外的常用文本都属于新闻之列包括消息通讯特写速写有的将速写纳入特写之列等等狭义的新闻则专指消息消息是用概括的叙述方式比较简明扼要的文字迅速及时地报道国内外新近发生的有价值的事实
    0
1