一种基于互联网海量信息的随机事件演化即时跟踪方法技术

技术编号：8323490 阅读：203 留言：0更新日期：2013-02-14 01:09

本发明专利技术提出了一种基于互联网海量信息的随机事件演化即时跟踪方法。该方法以基本特征要素构成事件的初始空间向量，在跟踪过程中，以这一初始空间向量为基础，对互联网增量信息的高频词熵值进行计算与统计，将这一熵值作为事件演化动力，确定事件空间特征向量的增长与结构性变化，利用增量信息向量与事件临界空间向量的熵值对比实现新事件空间的稳定裂解，实现衍生/次生事件的识别与跟踪。本发明专利技术提供的方法以增量信息的熵值作为事件演化的动力，能够有效满足具有突发性、随机性事件的跟踪、预警/预测等工作的需要；同时，具有高度的专题性，避免海量信息处理活动中计算节点与网络负载较重的普遍现象，具有良好的可靠性与可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息处理领域，涉及一种信息提取方法，具体涉及，实现海量数据的快速提取、分析、研判。
技术介绍
近年来，众多研究人员对基于互联网文本处理的事件演化跟踪方法开展深入研究工作。话题发现与追踪技术研究是这一领域中的热点，一方面基于TDT(Topic Detectionand Tracking)语料的话题研究仍在继续，另一方面新应用背景下的话题研究也得到了积极的开展，文献分别探讨了在普通网页、网络搜索结果中的话题组织和发现问题。随着TDT研究的发展和深入，一些新的研究动向也为TDT带来了新的问题和研究思路，例如数据流挖掘、热点话题发现、基于话题的多文档摘要等。数据流挖掘，主要指对实时、动态、按时间排序的信息流进行的一系列相关研究。TDT的研究对象也是一种动态数据流，两个领域的发展是相互促进的。热点话题发现、基于话题的多文档摘要稍有不同，是对数据流经过TDT相关技术处理后所得结果的进一步整理，以更方便人们对信息的使用。热点话题发现对话题的受关注度进一步分析，进而过滤出热点话题。国内TDT研究起步较晚，多在评测之后，主要集中在层次化话题发现、话题追踪、和新事件发现几个研究内容上，热点话题发现也是较多关注的焦点。上述的文本处理研究工作，为海量互联网信息中事件演化跟踪提供了一定的技术基础。然而，事件的跟踪过程中，信息处理活动需要以事件特征为分析的基本出发点，将事件自身的演化过程作为研究分析的对象。事件演化过程受各种自然与社会环境因素影响，而非人的主观因素。因此，上述的一些研究成果存在一定的不足之处。多数情况下，事件是客观发展的事务对象，对其的发展跟踪需要结合...

【技术保护点】
一种基于互联网海量信息的随机事件演化即时跟踪方法，其特征在于，首先为事件构建事件空间，事件空间中包含有一组特征向量，每个特征向量中包含有一组主题词，然后进行如下步骤：步骤1：从当前互联网搜索引擎采集第i篇页面文本对象Ti，进行事件空间的增长；进行事件空间的增长的方法是：提取当前事件空间的全部特征向量的主题词，统计每个主题词在当前文本对象Ti中的词频，若第j个特征向量Vj的某个主题词的词频大于0，则更新该特征向量Vj的命中篇频，并存储当前文本对象Ti对该主题词的词频；步骤2：从当前文本对象Ti中删除当前事件空间的全部主题词，然后计算信息增量向量；计算信息增量向量的方法是：提取当前历史特征集合的全部历史特征向量的主题词，统计每个主题词在当前文本对象Ti中的词频，若第k个历史特征向量hk的某个主题词的词频大于0，则更新该历史特征向量hk的命中篇频，并存储当前文本对象Ti对该主题词的词频；所述的历史特征集合初始为空；步骤3：从当前文本对象Ti中删除当前历史特征集合中的全部主题词，然后从当前文本对象Ti中提取新特征向量；从当前文本对象Ti中提取新特征向量的方法是：判断当前文本对象Ti中是否存在词...

【技术特征摘要】
1.一种基于互联网海量信息的随机事件演化即时跟踪方法，其特征在于，首先为事件构建事件空间，事件空间中包含有一组特征向量，每个特征向量中包含有一组主题词，然后进行如下步骤步骤I:从当前互联网搜索引擎采集第i篇页面文本对象Ti,进行事件空间的增长；进行事件空间的增长的方法是提取当前事件空间的全部特征向量的主题词，统计每个主题词在当前文本对象Ti中的词频，若第j个特征向量I的某个主题词的词频大于0，则更新该特征向量' 的命中篇频，并存储当前文本对象Ti对该主题词的词频；步骤2 :从当前文本对象Ti中删除当前事件空间的全部主题词，然后计算信息增量向量；计算信息增量向量的方法是提取当前历史特征集合的全部历史特征向量的主题词，统计每个主题词在当前文本对象Ti中的词频，若第k个历史特征向量hk的某个主题词的词频大于0，则更新该历史特征向量hk的命中篇频，并存储当前文本对象Ti对该主题词的词频；所述的历史特征集合初始为空；步骤3 :从当前文本对象Ti中删除当前历史特征集合中的全部主题词，然后从当前文本对象Ti中提取新特征向量；从当前文本对象Ti中提取新特征向量的方法是判断当前文本对象Ti中是否存在词频超过阈值A的新词，若不存在，执行步骤4 ;若存在，则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量，并将生成的历史特征向量存储在历史特征集合中，然后执行步骤4 ；步骤4 :在历史特征集合中提取命中篇频最大的历史特征向量NV，提取历史特征向量NV中词频最大的前m个文本对象，在所提取的m个文本对象中，统计历史特征向量NV的每个主题词的词频，然后判断所统计的各主...

【专利技术属性】
技术研发人员：郭皓明，武群惠，张秀红，刘允桢，刘海，梁峰，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人