一种基于互联网海量信息的随机事件演化即时跟踪方法技术

技术编号:8323490 阅读:203 留言:0更新日期:2013-02-14 01:09
本发明专利技术提出了一种基于互联网海量信息的随机事件演化即时跟踪方法。该方法以基本特征要素构成事件的初始空间向量,在跟踪过程中,以这一初始空间向量为基础,对互联网增量信息的高频词熵值进行计算与统计,将这一熵值作为事件演化动力,确定事件空间特征向量的增长与结构性变化,利用增量信息向量与事件临界空间向量的熵值对比实现新事件空间的稳定裂解,实现衍生/次生事件的识别与跟踪。本发明专利技术提供的方法以增量信息的熵值作为事件演化的动力,能够有效满足具有突发性、随机性事件的跟踪、预警/预测等工作的需要;同时,具有高度的专题性,避免海量信息处理活动中计算节点与网络负载较重的普遍现象,具有良好的可靠性与可扩展性。

【技术实现步骤摘要】

本专利技术属于信息处理领域,涉及一种信息提取方法,具体涉及,实现海量数据的快速提取、分析、研判。
技术介绍
近年来,众多研究人员对基于互联网文本处理的事件演化跟踪方法开展深入研究工作。话题发现与追踪技术研究是这一领域中的热点,一方面基于TDT(Topic Detectionand Tracking)语料的话题研究仍在继续,另一方面新应用背景下的话题研究也得到了积极的开展,文献分别探讨了在普通网页、网络搜索结果中的话题组织和发现问题。随着TDT研究的发展和深入,一些新的研究动向也为TDT带来了新的问题和研究思路,例如数据流挖掘、热点话题发现、基于话题的多文档摘要等。数据流挖掘,主要指对实时、动态、按时间排序的信息流进行的一系列相关研究。TDT的研究对象也是一种动态数据流,两个领域的发展是相互促进的。热点话题发现、基于话题的多文档摘要稍有不同,是对数据流经过TDT相关技术处理后所得结果的进一步整理,以更方便人们对信息的使用。热点话题发现对话题的受关注度进一步分析,进而过滤出热点话题。国内TDT研究起步较晚,多在评测之后,主要集中在层次化话题发现、话题追踪、和新事件发现几个研究内容上,热点话题发现也是较多关注的焦点。上述的文本处理研究工作,为海量互联网信息中事件演化跟踪提供了一定的技术基础。然而,事件的跟踪过程中,信息处理活动需要以事件特征为分析的基本出发点,将事件自身的演化过程作为研究分析的对象。事件演化过程受各种自然与社会环境因素影响,而非人的主观因素。因此,上述的一些研究成果存在一定的不足之处。多数情况下,事件是客观发展的事务对象,对其的发展跟踪需要结合相关要素开展分析。神经网络因具有较强的学习能力,其能够逼近复杂非线性函数等特点在事件演化跟踪分析研究中得到广泛应用。神经网络以有限集为基本输入,围绕有限集情况下单隐藏层前馈神经网络(SLFN, Single-hidden Layer Feedforward Neural Network)的学习能力问题,Huang和Babri等开展了研究工作。基于以上研究,Huang为SLFN提出了 ELM(Extreme Learning Machine)学习方法通过隐藏层结点数设置,输入权和隐藏层偏差进行随机赋值获得输出结果。与BP (Back Propagation)相比,其在效率方面具有显著的优势。邓万宇等借鉴ELM的一次学习思想并基于结构风险最小化理论提出一种快速学习方法(RELM, Regularized Extreme Learning Machine), RELM 打破了传统 BP 算法的参数迭代调整的思想,从而获得了快速学习的能力,RELM比BP、SVM (Support Vector Machine)速度提高很多倍,提高泛化性能,为神经网络应用到实时环境提供了有效途径,为神经网络技术在事件演化跟踪领域的应用提供了基础(参考文件I :邓万宇,郑庆华,陈琳,许学斌.神经网络极速学习方法研究[J]计算机学报,2010, 33(2) :279-287.)。为了便于对大规模数据进行归纳处理,传统的(Knowledge Discovery in Databases)研究人员提出了对数据进行采样处理,将数据分割后分布并行处理的逐步放大(Scaling up)学习方法。然而这类方法在面临处理算法过于复杂的难题,同时也面临因数量大导致的欠处理难题。针对这一问题,田大新等提出了基于Hebb规则的分布神经网络学习方法,Hebb规则的局部特征使被分割到各个子集的部分知识能够在分布处理阶段得到保留,并在集中处理阶段被提取出来。这一方法以神经网络为基础,解决了大规模数据知识提取与信息处理的基本难题(参考文件2:田大新,刘衍珩,李宾,吴静.基于Hebb规则的分布神经网络学习算法.计算机学报,2007,30 (8) : 1379-1388.)。神经网络技术通过预制的信息框架建立学习的基本路径。然而,多数情况下事件往往具有随机性的特点,同时在事件的跟踪过程中要求在较短的时间内完成信息的处理并向有关决策部门提供参考依据。因此,多数事件信息处理工作需要在有限的信息基础上迅速开展自适应的分析活动。传统的神经网络技术在这一应用背景下,其自身实现机制的局限性就突显出来。现有技术中缺乏用有效的定量分析工具对灾害事件的发展演化进行分析的研究。针对这一不足,陈伟珂提出用熵理论和耗散结构理论对公共安全突发事件的过程进行了分析,但是没有从更一般的角度对事件的发展演化进行抽象建模(参考文件3 :陈伟珂,向兰兰.基于熵及耗散结构的公共安全突发事件的过程分析研究[J],中国软科学,2007 (10) :149-154.)。刘铁民分析了重大事故孕育、发生、发展和急变的动力学特征,阐述了重大事故形成和发展主要具备的四个基本要素(参考文件4 :刘铁民.重大事故动力学演化[J].中国安全生产科学技术.2006,2^):3-6.)。这一研究成果仅是从突发事件爆发的角度对于突发事件进行了说明,但是没有建立突发事件的系统状态方程,从定量的角度进行深层次的分析。Seeger从定性的角度分析,从混沛理论(Chaos Theory)基础上阐释危机信息传播中的深层复杂性问题,系统构建了危机信息传播的复杂性研究的普适理论问题(参考文件 5:P. R. Monge, N. S. Contractor, “Theories of Communication Networks”,NY Oxford University Press, 2003.),对于从本质层面理解危机信息传播具有极为重要的研究价值。Monge和Contracto更为详尽地从复杂适应系统(Complex Adaptive System, CAS)理论入手,借助他们研究提出的“多理论、多层次框架”(Multi-Theoretical Multi-Level,MTML)模型,应用数学建模及计算机模拟的方法系统地研究危机传播网络中各变量参数之间的协同演化(CO-evolution)问题,并探索混沌衍生的结构性涌现机制(参考文件6:D.Keith, “Situation Theory and Situation Semantics [J],,,In Logic and the Modalitiesin the Twentieth Century,2006,7:601-664.)。如前所述,事件是客观发展的,对其发展过程的分析需要紧密结合各种事件诱导要素。通过对事件诱导要素进行捕捉、判别、以及计算确定事件的表征与发展阶段。多数情况下事件的发生与发展具有高度的随机性。而传统的结构化、半结构化过程,分析方法无法针对这一随机过程建立全面的信息框架,从而导致事件演化跟踪存在漏洞。同时,在信息处理活动中,通过互联网搜索系统获取的信息具有在短时间内爆发性增长的特点,因此对分析演化过程对大数据量的吞吐与处理效率提出较高的要求。需要将事件演化跟踪过程与信息的提取活动紧密结合在一起,根据事件阶段性表征以及可能的发展趋势随态确定数据生产方式,从而满足信息处理领域的要求。
技术实现思路
本专利技术针对现有存在的信息滞后造成的事件识别困难,非确定性事件演化跟踪精度较低,海量信息混乱造成的随机事件演化过本文档来自技高网
...

【技术保护点】
一种基于互联网海量信息的随机事件演化即时跟踪方法,其特征在于,首先为事件构建事件空间,事件空间中包含有一组特征向量,每个特征向量中包含有一组主题词,然后进行如下步骤:步骤1:从当前互联网搜索引擎采集第i篇页面文本对象Ti,进行事件空间的增长;进行事件空间的增长的方法是:提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第j个特征向量Vj的某个主题词的词频大于0,则更新该特征向量Vj的命中篇频,并存储当前文本对象Ti对该主题词的词频;步骤2:从当前文本对象Ti中删除当前事件空间的全部主题词,然后计算信息增量向量;计算信息增量向量的方法是:提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第k个历史特征向量hk的某个主题词的词频大于0,则更新该历史特征向量hk的命中篇频,并存储当前文本对象Ti对该主题词的词频;所述的历史特征集合初始为空;步骤3:从当前文本对象Ti中删除当前历史特征集合中的全部主题词,然后从当前文本对象Ti中提取新特征向量;从当前文本对象Ti中提取新特征向量的方法是:判断当前文本对象Ti中是否存在词频超过阈值A的新词,若不存在,执行步骤4;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4;步骤4:在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,然后判断所统计的各主题词的词频是否均大于阈值B,若是,则将当前历史特征向量NV作为有效特征向量添加到当前事件空间中;否则,放弃当前步骤的操作,执行步骤5;步骤5:从当前事件空间中提取命中篇频最大的特征向量Vmax与命中篇频最小的特征向量Vmin,计算两个特征向量Vmax与Vmin的命中篇频的差值,判断所得差值是否超过阈值C,若是,则将当前事件空间判定为临界裂解状态,执行步骤6,否则,转步骤7执行;步骤6:将特征向量Vmax作为裂解向量,提取命中特征向量Vmax的全部文本对象集合S2,统计当前事件空间中除去特征向量Vmax以外的特征向量,在文本对象集合S2中的命中篇频,所得到的命中篇频称为与特征向量Vmax的相关度,然后判断是否能够在当前事件空间中提取相关度高于阈值D的特征向量,若否,当前事件空间为不可裂解空间,执行步骤7;若是,相关度高于阈值D的特征向量与特征向量Vmax共同组成新的事件空间,并删除当前 事件空间中对应的特征向量,完成裂解;步骤7:以事件空间中特征向量主题词更新互联网搜索引擎的主题词,进行后续文本处理工作。...

【技术特征摘要】
1.一种基于互联网海量信息的随机事件演化即时跟踪方法,其特征在于,首先为事件构建事件空间,事件空间中包含有一组特征向量,每个特征向量中包含有一组主题词,然后进行如下步骤步骤I:从当前互联网搜索引擎采集第i篇页面文本对象Ti,进行事件空间的增长;进行事件空间的增长的方法是提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第j个特征向量I的某个主题词的词频大于0,则更新该特征向量' 的命中篇频,并存储当前文本对象Ti对该主题词的词频;步骤2 :从当前文本对象Ti中删除当前事件空间的全部主题词,然后计算信息增量向量;计算信息增量向量的方法是提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第k个历史特征向量hk的某个主题词的词频大于0,则更新该历史特征向量hk的命中篇频,并存储当前文本对象Ti对该主题词的词频;所述的历史特征集合初始为空;步骤3 :从当前文本对象Ti中删除当前历史特征集合中的全部主题词,然后从当前文本对象Ti中提取新特征向量;从当前文本对象Ti中提取新特征向量的方法是判断当前文本对象Ti中是否存在词频超过阈值A的新词,若不存在,执行步骤4 ;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4 ;步骤4 :在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,然后判断所统计的各主...

【专利技术属性】
技术研发人员:郭皓明武群惠张秀红刘允桢刘海梁峰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1