面向网络文本大数据的话题检测与跟踪方法、装置制造方法及图纸

技术编号:17248601 阅读:33 留言:0更新日期:2018-02-11 06:48
本发明专利技术属于数据处理技术领域,提供了一种面向网络文本大数据的话题检测与跟踪方法、装置。该方法包括对中文分词后的文档集构建图模型,根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果,根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布,根据话题的概率分布,判断当前文档是否为新话题或指定话题。本发明专利技术面向网络文本大数据的话题检测与跟踪方法、装置,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据处理效率。

【技术实现步骤摘要】
面向网络文本大数据的话题检测与跟踪方法、装置
本专利技术涉及数据处理
,具体涉及一种面向网络文本大数据的话题检测与跟踪方法、装置。
技术介绍
随着互联网信息的大幅膨胀,信息量呈指数增长,浩瀚的网络数据远远超出了人们的掌控能力。公司的房地产分类信息服务平台同样如此,历年积累的数据量非常庞大,用户难以从众多信息中快捷地提取自己所需要的信息。话题检测与跟踪(TopicDetectionandTracking,TDT)是一项针对新闻媒体信息流进行新话题的自动检测和已知话题的后续跟踪的信息处理技术。由于话题检测和跟踪与信息检索和数据挖掘等自然语言处理技术存在着很多的共性,而且它直接面向具备突发性特征的新闻语料,因此,逐渐成为大数据分析的研究热点。目前的研究仍然以传统基于统计策略的文本分类、信息过滤和聚类等技术为主,忽视了新闻语料本身具备的特点,比如话题的突发性与跳跃性、相关报道的延续与继承性、新闻内容的层次性以及时序性等。针对上述问题,当前的研究趋势是将多种方法进行融合,并嵌入新闻语料特性实现话题的识别与追踪,比如结合命名实体的话题模型描述、以时间为参数的权重与阈值估计等。虽然这些方法能本文档来自技高网...
面向网络文本大数据的话题检测与跟踪方法、装置

【技术保护点】
一种面向网络文本大数据的话题检测与跟踪方法,其特征在于,包括:对中文分词后的文档集构建图模型;根据所述图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;根据话题的概率分布,判断当前文档是否为新话题或指定话题。

【技术特征摘要】
1.一种面向网络文本大数据的话题检测与跟踪方法,其特征在于,包括:对中文分词后的文档集构建图模型;根据所述图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;根据话题的概率分布,判断当前文档是否为新话题或指定话题。2.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,所述根据话题的概率分布,判断当前文档是否为新话题或指定话题,具体包括:根据话题的概率分布,计算该文档集与历史文档的属性集的相似度;将具有最大相似度的话题簇与第一相似度阈值比较:若小于所述第一相似度阈值,则判断当前文档为新话题;根据话题的概率分布,计算该文档集与指定话题的相似度;将计算结果与第二相似度阈值比较:若大于所述第二相似度阈值,则判断当前文档属于所述指定话题。3.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,对中文分词后的文档集构建图模型,具体包括:将中文分词后文档集中的关键词,作为所述图模型的节点;将每个关键词的共现关系,构建相应节点之间的边,所述图模型包括所述节点和所述节点之间的边。4.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,根据所述图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量,具体包括:根据所述图模型,构造拉普拉斯矩阵,并进行分布式存储;对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。5.根据权利要求1所述面向网络文本大数据的话题检测与跟踪方法,其特征在于,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果,具体包括:采用K-means算法,对前k个特征向量所构成的矩阵进行聚类,获取所述聚类结果。6.一种面向网络文本大数据的话题检测与跟踪...

【专利技术属性】
技术研发人员:隆颢鄂毅齐东平钟平米呈刘磊
申请(专利权)人:深圳市易图资讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1