面向网络文本大数据的话题检测与跟踪方法、装置制造方法及图纸

技术编号:17248601 阅读:18 留言:0更新日期:2018-02-11 06:48
本发明专利技术属于数据处理技术领域,提供了一种面向网络文本大数据的话题检测与跟踪方法、装置。该方法包括对中文分词后的文档集构建图模型,根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果,根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布,根据话题的概率分布,判断当前文档是否为新话题或指定话题。本发明专利技术面向网络文本大数据的话题检测与跟踪方法、装置,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据处理效率。

【技术实现步骤摘要】
面向网络文本大数据的话题检测与跟踪方法、装置
本专利技术涉及数据处理
,具体涉及一种面向网络文本大数据的话题检测与跟踪方法、装置。
技术介绍
随着互联网信息的大幅膨胀,信息量呈指数增长,浩瀚的网络数据远远超出了人们的掌控能力。公司的房地产分类信息服务平台同样如此,历年积累的数据量非常庞大,用户难以从众多信息中快捷地提取自己所需要的信息。话题检测与跟踪(TopicDetectionandTracking,TDT)是一项针对新闻媒体信息流进行新话题的自动检测和已知话题的后续跟踪的信息处理技术。由于话题检测和跟踪与信息检索和数据挖掘等自然语言处理技术存在着很多的共性,而且它直接面向具备突发性特征的新闻语料,因此,逐渐成为大数据分析的研究热点。目前的研究仍然以传统基于统计策略的文本分类、信息过滤和聚类等技术为主,忽视了新闻语料本身具备的特点,比如话题的突发性与跳跃性、相关报道的延续与继承性、新闻内容的层次性以及时序性等。针对上述问题,当前的研究趋势是将多种方法进行融合,并嵌入新闻语料特性实现话题的识别与追踪,比如结合命名实体的话题模型描述、以时间为参数的权重与阈值估计等。虽然这些方法能够在一定程度上提高TDT系统性能,但只是对传统统计策略的一种补充与修正,并没有形成独立于话题检测或跟踪领域特有的研究框架与模型。如何检测新话题,对已出现话题的识别、跟踪,提高吞吐率,是本领域技术人员亟需解决的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术提供了一种面向网络文本大数据的话题检测与跟踪方法、装置,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据运算效率。第一方面,本专利技术提供一种面向网络文本大数据的话题检测与跟踪方法,该方法包括:对中文分词后的文档集构建图模型;根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;根据话题的概率分布,判断当前文档是否为新话题或指定话题。进一步地,根据话题的概率分布,判断当前文档是否为新话题或指定话题,具体包括:根据话题的概率分布,计算该文档集与历史文档的属性集的相似度;将具有最大相似度的话题簇与第一相似度阈值比较:若小于第一相似度阈值,则判断当前文档为新话题;根据话题的概率分布,计算该文档集与指定话题的相似度;将计算结果与第二相似度阈值比较:若大于第二相似度阈值,则判断当前文档属于指定话题。基于上述任意面向网络文本大数据的话题检测与跟踪方法实施例,进一步地,对中文分词后的文档集构建图模型,具体包括:将中文分词后文档集中的关键词,作为图模型的节点;将每个关键词的共现关系,构建相应节点之间的边,图模型包括节点和节点之间的边。基于上述任意面向网络文本大数据的话题检测与跟踪方法实施例,进一步地,根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量,具体包括:根据图模型,构造拉普拉斯矩阵,并进行分布式存储;对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。基于上述任意面向网络文本大数据的话题检测与跟踪方法实施例,进一步地,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果,具体包括:采用K-means算法,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果。第二方面,本专利技术提供一种面向网络文本大数据的话题检测与跟踪装置,该装置包括图模型构建模块、特征向量获取模块、聚类模块、话题分布计算模块和检测与跟踪模块,图模型构建模块用于对中文分词后的文档集构建图模型;特征向量获取模块用于根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;聚类模块用于对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;话题分布计算模块用于根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;检测与跟踪模块用于根据话题的概率分布,判断当前文档是否为新话题或指定话题。进一步地,检测与跟踪模块具体包括话题检测子模块和话题跟踪子模块,话题检测子模块用于根据话题的概率分布,计算该文档集与历史文档的属性集的相似度;将具有最大相似度的话题簇与第一相似度阈值比较:若小于第一相似度阈值,则判断当前文档为新话题;话题跟踪子模块用于根据话题的概率分布,计算该文档集与指定话题的相似度;将计算结果与第二相似度阈值比较:若大于第二相似度阈值,则判断当前文档属于指定话题。基于上述任意面向网络文本大数据的话题检测与跟踪装置实施例,进一步地,图模型构建模块具体包括节点构建子模块和边构建子模块,节点构建子模块用于将中文分词后文档集中的关键词,作为图模型的节点;边构建子模块用于将每个关键词的共现关系,构建相应节点之间的边,图模型包括节点和节点之间的边。基于上述任意面向网络文本大数据的话题检测与跟踪装置实施例,进一步地,特征向量获取模块具体包括分布式存储子模块和奇异值分解子模块,分布式存储子模块用于根据图模型,构造拉普拉斯矩阵,并进行分布式存储;奇异值分解子模块用于对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。基于上述任意面向网络文本大数据的话题检测与跟踪装置实施例,进一步地,聚类模块具体用于:采用K-means算法,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果。由上述技术方案可知,本实施例提供的面向网络文本大数据的话题检测与跟踪方法、装置,将中文分词后的文档集建立图模型,实现对话题的显示挖掘,该方法进行聚类运算,直接面向文本大数据,极大提高了数据吞吐率。计算话题的概率分布,快速、准确地实现新话题检测与话题追踪,满足文本大数据要求。因此,本实施例面向网络文本大数据的话题检测与跟踪方法、装置,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据运算效率。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1示出了本专利技术所提供的一种面向网络文本大数据的话题检测与跟踪方法的方法流程图;图2示出了本专利技术所提供的一种面向网络文本大数据的话题检测与跟踪装置的结构示意图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。第一方面,本专利技术实施例所提供的一种面向网络文本大数据的话题检测与跟踪方法,结合图1,该方法包括:步骤S1,对中文分词后的文档集构建图模型。步骤S2,根据图模型,构造拉普拉斯矩阵,采用分布式的方法进行特征分解,获取前k个特征向量。步骤S3,对拉普拉斯矩阵的前k个特征向量所构成的矩阵进行聚类,获取聚类结果。在实际应用过程中,通过MapReduce编程模型实现了分布式谱聚类的应用,分布式存储拉普拉斯矩阵,并对存储节点各自存储的矩阵进行奇异值分解,直接面向文本大数据,极大地提高了吞吐率。步骤S4,根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布。例如,本文档来自技高网...
面向网络文本大数据的话题检测与跟踪方法、装置

【技术保护点】
一种面向网络文本大数据的话题检测与跟踪方法,其特征在于,包括:对中文分词后的文档集构建图模型;根据所述图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;根据话题的概率分布,判断当前文档是否为新话题或指定话题。

【技术特征摘要】
1.一种面向网络文本大数据的话题检测与跟踪方法,其特征在于,包括:对中文分词后的文档集构建图模型;根据所述图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;根据话题的概率分布,判断当前文档是否为新话题或指定话题。2.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,所述根据话题的概率分布,判断当前文档是否为新话题或指定话题,具体包括:根据话题的概率分布,计算该文档集与历史文档的属性集的相似度;将具有最大相似度的话题簇与第一相似度阈值比较:若小于所述第一相似度阈值,则判断当前文档为新话题;根据话题的概率分布,计算该文档集与指定话题的相似度;将计算结果与第二相似度阈值比较:若大于所述第二相似度阈值,则判断当前文档属于所述指定话题。3.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,对中文分词后的文档集构建图模型,具体包括:将中文分词后文档集中的关键词,作为所述图模型的节点;将每个关键词的共现关系,构建相应节点之间的边,所述图模型包括所述节点和所述节点之间的边。4.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,根据所述图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量,具体包括:根据所述图模型,构造拉普拉斯矩阵,并进行分布式存储;对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。5.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果,具体包括:采用K-means算法,对前k个特征向量所构成的矩阵进行聚类,获取所述聚类结果。6.一种面向网络文本大数据的话题检测与跟踪...

【专利技术属性】
技术研发人员:隆颢鄂毅齐东平钟平米呈刘磊
申请(专利权)人:深圳市易图资讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1