一种基于改进KL散度的话题跟踪方法技术

技术编号:24996121 阅读:24 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种基于改进KL散度的新闻话题跟踪方法。所述方法利用KL散度衡量分布差异的思想,构造出一种可以区分普通特征与话题特征的权重计算方法,以此来提升特征的话题辨别能力,提高话题跟踪的准确率;同时引入word2vec,将其与KL散度权重相结合,实现话题文本的向量化表示,降低数据维度,增强特征间的语义联系;同时,采用增量学习模式,利用新检测到的相关报道更新话题模型,解决话题漂移。

【技术实现步骤摘要】
一种基于改进KL散度的话题跟踪方法
本专利技术涉及计算机
,具体涉及一种基于改进KL散度的话题跟踪方法。
技术介绍
话题跟踪(TopicTrackingTask,TT)是话题检测与跟踪(TopicDetectionandTracking,TDT)中的一项子研究任务,主要用于跟踪已有话题的后续相关报道,即在给定待测话题的基础上,逐一判断新闻数据流中每篇报道与现有话题的相关度,并对其进行类别划分,从而实现话题跟踪功能。通过话题跟踪技术,可以把与话题相关的报道有效的组织起来,帮助了解事件发展过程和相关细节。话题和报道的特征模型构造是话题跟踪任务的基础问题,一般来说,话题模型是由其相关报道模型的质心或集合构成,报道的表示方法包括向量模型和概率模型等。传统模型对话题特征的提取依赖于单一文档特征,例如TF-IDF,该模型提取的特征反应的是文档本身的特征,不能反映文档所在话题的话题特征,忽略了话题特征与单一文档特征的区别,使得提取出的特征话题辨识能力较低;同时,传统话题特征提取模型认为文档间相互独立,忽略了话题中各文档间的联系。本文档来自技高网...

【技术保护点】
1.一种基于改进KL散度的话题跟踪方法,包括对话题数据进行分词、去停用词的预处理,其特征在于,所述方法还包括如下步骤:/n(1)利用KL散度衡量分布差异构造出一种话题数据特征权重计算方法:统计特征词在某一话题和全部话题中出现的频率,以特征出现频率分布来代替整体分布,为那些在某一个话题中出现占比高而在其他话题中出现占比低的特征赋予大的权重,在某一话题与全部话题的特征频率占比比值的基础上加1;/n(2)将word2vec与KL散度权重结合,实现话题文本的特征向量化,构造各个话题对应的话题特征向量,各个话题中所有的文档集共同构成该话题的话题特征模型;/n(3)利用word2vec构造未检测报道的特征...

【技术特征摘要】
1.一种基于改进KL散度的话题跟踪方法,包括对话题数据进行分词、去停用词的预处理,其特征在于,所述方法还包括如下步骤:
(1)利用KL散度衡量分布差异构造出一种话题数据特征权重计算方法:统计特征词在某一话题和全部话题中出现的频率,以特征出现频率分布来代替整体分布,为那些在某一个话题中出现占比高而在其他话题中出现占比低的特征赋予大的权重,在某一话题与全部话题的特征频率占比比值的基础上加1;
(2)将word2vec与KL散度权重结合,实现话题文本的特征向量化,构造各个话题对应的话题特征向量,各个话题中所有的文档集共同构成该话题的话题特征模型;
(3)利用word2vec构造未检测报道的特征模型;
(4)引入Rocchio算法,利用步骤(2)中构造的话题特征模型计算每个话题对应的标准向量,计算待检测报道与各个话题标准向量的相似度,判断该报道所属话题类别,实现话...

【专利技术属性】
技术研发人员:谢武孔丽娜强保华刘满意杨鲜
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1