在物理空间上提取网络空间热点事件信息的方法技术

技术编号:8453054 阅读:270 留言:0更新日期:2013-03-21 17:14
本发明专利技术公开了一种在物理空间上提取网络空间热点事件信息的方法,包括如下步骤:S1、在网络空间中提取热点事件关键词集;S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。本发明专利技术利用物理空间和网络空间的信息样本的关联性与互补性,解决了检索物理空间中与网络空间热点事件相关的信息样本,为网络热点事件的言论提供物理空间关联信息作为参考依据,不仅可以让用户快速、全面地了解热点事件的相关信息,同时也增强了用户对不良信息和谣言的辨别能力。

【技术实现步骤摘要】

本专利技术属于数字信息处理
,具体涉及与网络多媒体信息相关的数字信息处理,特别是基于多源异质媒体集的协同聚类的。
技术介绍
随着信息技术的发展和互联网的普遍应用,越来越多的人习惯于在网络上分享新闻、发表个人见解、讨论热门话题,甚至记录日常生活琐屑。网络空间数据是指在互联网上共享的各类社会感知数据,包括用户共享的文本、图像、视频、音频等多媒体数据。由于快速、便捷、普遍等特点,互联网络已经成为人们获取信息的一个重要途径。然而事物总有其两面性,用户在网络上的正当行为可以促使进步、健康、有益的正面信息在网络空间中传播,而不当行为可能散布反动、迷信、低级的具有误导性或危害性的言论。不当行为甚至可能将进一步误导舆论或者妨碍到公共安全。相对于网络空间,物理空间中的数据主要指能够反映真实物理存在的信息数据, 包括新闻、监控视频以及原始照片等。可见,来源于确定的物理空间的信息较为可信、真实, 有助于用户辨别来自网络空间的信息的真实性和可靠性。因此研究如何在物理空间中提取网络空间的热点事件信息的方法是非常必要和迫切的。但是在目前的研究中,网络空间数据的舆情性和物理空间数据的真实性,并没有得到很好的重视和利用。现有方法多数局限于只在单一空间上分析数据,例如对网络空间的热点信息的分析,以及对物理空间数据的异常检测。而针对物理空间和网络空间数据的交互和融合,还没有系统的研究工作。此外,目前对于热点事件的言论及其相关信息的挖掘,现有方法主要是采用有效的数据集上进行聚类的方法,比如基于谱的分割方法(spectralgraph partition)、k均值聚类(K-means)等,但这些方法都局限于在单一媒体集上。
技术实现思路
(一 )要解决的技术问题本专利技术需要解决的技术问题主要为如何利用多源异质数据集之间语义关联,发现网络空间热点事件在物理空间中最为相关的信息样本,以在物理空间上提取网络空间热点事件信息,从而帮助用户甄别网络空间中信息的真实性。( 二 )技术方案为了解决上述技术问题,本专利技术提出了一种,包括如下步骤SI、在网络空间中提取热点事件关键词集;S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。其中步骤SI可以包括对热点事件的每个关键词进行分析,根据每个关键词在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集。其中步骤S2包括S21、计算物理空间中的多源异质信息样本的语义关联度;S22、 根据所述热点事件关键词对物理空间中的多源异质数据集进行协同聚类。返回到第S222步。其中步骤S3包括S31、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类,其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定;S32、 在各个数据集返回的聚类上,计算其中的每个样本与热点事件的相似度;S33、每个数据集返回相关度最大的指定个样本作为最终的结果。(三)有益效果本专利技术利用物理空间和网络空间的信息样本的关联性与互补性,提出了多源异质数据集的协同聚类方法,解决了检索物理空间中与网络空间热点事件相关的信息样本,为网络热点事件的言论提供物理空间关联信息作为参考依据,不仅可以让用户快速、全面地了解热点事件的相关信息,同时也增强了用户对不良信息和谣言的辨别能力。本专利技术通过计算信息样本间的文本、图片、视频等多媒体信息的相关性,极大地提高了聚类和样本检索的准确性。附图说明图I示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系;图2是本专利技术所提出的的示意图3是本专利技术采用的基于信息理论(Information Theoretic)的聚类方法求解一般化结构的协同聚类问题的示意图4示出了本专利技术的一个实施例在各个时间间隔里提取的前15个热点关键词和突发指数;图5示出了本专利技术的一个实施例挖掘出来的网络空间热点事件列表;图6示出了本专利技术的一个实施例第一周中与各个热点事件相关的物理空间的信息样本。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。如前所述,在本专利技术中,网络空间数据是指在互联网上,共享的各类社会感知数据,包括用户共享的文本、图像、视频、音频等多媒体数据,物理空间中的数据主要指能够反映真实物理存在的信息数据,包括新闻、监控视频以及原始照片等。为了有效地挖掘网络空间的热点事件,同时发现物理空间中与之相关的样本信息,本专利技术提出多源异质数据集的协同聚类的方法。这一方法与传统的聚类技术比较,具有普遍性,且更适合于当前比较热门的微博平台。多源异质数据集的协同聚类方法考虑来自不同源数据集样本的跨源跨媒体相关性,利用物理空间与网络空间信息的关联性和互补性,对所有数据源数据进行同时聚类。在本专利技术中,所涉及到的多源异质数据集包括从网络空间检测到的热点事件关键词集,也包括来自物理空间的照片集、视频集和新闻集。图1示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系,如图1所示,物理空间与网络空间的各个数据集之间具有两两的相连性与互补性。图2是本专利技术所提出的的示意图。图2示出了来自两个空间的多源异质数据集之间的语义关联。由图2可以看出,任意两个数据集都是相关的,这些关联关系就是本专利技术所提出的协同聚类方法的基础。本专利技术的方法包含三个步骤S1、在网络空间中提取热点事件关键词集;S2、对来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据聚类结果提取物理空间中与热点事件相关的信息样本。SI、在网络空间中提取热点事件关键词集。事件总是与一组关键词相关的,比如日本2011年3月11日的大地震,这一事件就与“地震”、“核泄露”和“福岛”等关键词相关。因此热点事件关键词提取是热点事件检测的关键步骤。不同于一般的事件检测方法,由于热点事件检测注重分析事件在时间维度上的变化特征,所以本专利技术对每个关键词进行分析,根据其在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集。所谓突发是指在短时间内某一事物发生的频率急剧增多。本专利技术把每个关键词看成是一个生命体,当一个新的关键词出现时,他的生命就开始了,随后我们可以利用下面的步骤对其进行分析计算。摄入新营养在这个关键词存活的每个时间间隔里,它都将根据其当前时间间隔的热度,摄入新的营养,新的营养可以用“词频-比例文档频率”(Term frequency-Proportional document frequency)计算得出。设关键词w的摄入新营养为 newNutri (w),计算公式如下权利要求1.ー种,其特征在于,包括如下步骤 51、在网络空间中提取热点寒件关键词集; 52、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类; 53、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。2.如权利要求1所述的,其特征在于,所述步骤SI包括对热点事件的每个关键词进行分析,根据每个关键词在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每本文档来自技高网
...

【技术保护点】
一种在物理空间上提取网络空间热点事件信息的方法,其特征在于,包括如下步骤:S1、在网络空间中提取热点事件关键词集;S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐常胜鲍秉坤
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1