一种新闻聚类方法技术

技术编号：8980750 阅读：271 留言：1更新日期：2013-07-31 22:50

本发明专利技术公开了一种新闻聚类方法，对于一个新闻事件，人们不满足于只看到该事件的某一片断，更希望了解整个事情的来龙去脉。然而在各大新闻网站上，更多地看到的是一个个零散的新闻报道。通过新闻聚类技术，可以将相关新闻报道聚合在一起，让人们对事件的了解更加全面、准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网领域，具体涉及。
技术介绍
新闻文本在Internet上是信息资源的一个主要形式，面对这样一个信息海洋，人们往往会陷入窘迫的境地。一方面收到太多的信息无从选择和消化，淹没在繁杂的信息中；另一方面是信息迷失，人们难于找到自己真正所需的信息。因此，能够快速高效地获取所需要的信息是每个人的迫切要求。在这种情况下，对大量的信息自动地提取其概念空间，提供给人一个清晰的框架，帮助人们进行信息的检索和分类则显得必不可少。对于一个新闻事件，人们不满足于只看到该事件的某一片断，更希望了解整个事情的来龙去脉。然而在各大新闻网站上，更多地看到的是一个个零散的新闻报道。通过新闻聚类技术，可以将相关新闻报道聚合在一起，让人们对事件的了解更加全面、准确。
技术实现思路
本专利技术目的是:提供一种可以将相关新闻报道聚合在一起，让人们对事件的了解更加全面、准确的新闻聚类方法。本专利技术的技术方案是:，其特征在于，包括以下步骤:(I)第一次上线时，设置IastUpdateID=O, IastUpdateID为最近处理样本的ID ；(2)从索引库中读 η 篇来进行预处理，IDTDriver.lastUpdateID=n, IDTDriver.1astUpdateID为下次需要开始处理的位置；(3)对当前η篇聚类处理后，得到〈DocID，TopicID〉，其中DocID是在索引里Document的唯一 ID, TopicID是对应的聚类的主题ID,也是唯一分配的；(4)同时输出主题 <DocID_List, FeatureVector, LastUpdateTime〉...

【技术保护点】
一种新闻聚类方法，其特征在于，包括以下步骤：（1）第一次上线时，设置lastUpdateID=0，lastUpdateID为最近处理样本的ID；（2）从索引库中读n篇来进行预处理，IDTDriver.lastUpdateID=n，IDTDriver.lastUpdateID为下次需要开始处理的位置；（3）对当前n篇聚类处理后，得到，其中DocID是在索引里Document的唯一ID，TopicID是对应的聚类的主题ID，也是唯一分配的；（4）同时输出主题，其中DocID_List是对应这个聚类或主题的所有相关文章；FeatureVector是该主题的特征向量；LastUpdateTime是最近一次更新的时间；（5）从lastUpdateID开始，继续往后读N个样本并对其聚类；（6）逐一扫描每一个步骤（4）中输出的主题，判断步骤（5）中是否有新的主题可以和它归并；如果有，更新该主题的DocID_List和它的FeatureVector，同时LastUpdateTime也设置为新的时间；对于被合并的TopicID，需要更新；（7）如果还有下一个主题，转到步骤（6）；如果没有，关闭当前打开的...

【技术特征摘要】
1.一种新闻聚类方法，其特征在于，包括以下步骤: (1)第一次上线时，设置IastUpdateID=O,IastUpdateID为最近处理样本的ID ； (2)从索引库中读η 篇来进行预处理，IDTDriver.lastUpdateID=n, IDTDriver.1astUpdateID为下次需要开始处理的位置； (3)对当前η篇聚类处理后，得到〈DocID，TopicID〉，其中DocID是在索引里Document的唯一 ID，TopicID是对应的聚类的主题ID，也是唯一分配的； (4)同时输出主题<DocID_List, FeatureVector, LastUpdateTime〉,其中 DocID_List是对应这个聚类或主题的所有相关文章；FeatureVector是该主题的特征向量；LastUpdateTime是最近一次更新的时间； (5)从IastUpdateID开始，继续往后读N个样本并对其聚类； (6)逐一扫描每一个步骤(4)中输出的主题，判断步骤(5)中是否有新的主题可以和它归并；如果有，更新该主题的DocID_List和它的FeatureVector,同时LastUpdateTime也设置为新的时间；对于被合并的TopicID，<DocID, TopicID)需要更新；...

【专利技术属性】
技术研发人员：韩松，
申请(专利权)人：儒豹苏州科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人