The invention discloses a topic processing method and a device thereof. Among them, the method includes obtaining a text description for new topic; detecting whether the new text description of the topic is the topic; in the test results described as the new text topic is not the case for the topic, to determine the new text description of the topic is a new topic. The invention solves the technical problems that the existing topic can not be found and the new topic can not be discovered in the relevant technology.
【技术实现步骤摘要】
话题处理方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种话题处理方法及装置。
技术介绍
话题检测与跟踪(TopicDetection&Tracing)技术是自然语言处理与信息检索领域实用性非常高的技术,也是在大数据背景下有效地发现和提取有用信息实用技术,意在发现和处理文本中出现的热门话题或事件。通常情况下,热门话题或报道的发现和跟踪技术是针对特定领域或者特定事件,发现并跟踪话题后续进展情况的一项技术。目前,国内外的热门话题检测技术主要侧重于从各类新闻报道中发现、过滤和跟踪话题,执行过程如下:1、文本获取,即上网收集各类媒体的新闻报道;2、文本向量化,即将收集到的原始文本进行向量化处理,形成向量化的文本;3、文本聚类,即将向量化的文本进行聚类分析,并将出现频率高的词语或者处在聚类中心上的文本作为一个话题;4、在特定的时间段内,重复上述1、2、3步的操作,并使用热度模型对第3步得到的话题进行排序,并输出前top-n个话题,该执行过程虽然能够实现话题发现和跟踪功能,但是存在如下缺陷:(1)线下处理,不能实时的发现与跟踪新话题,进而无法及时有效地了解新话题事件;(2)信源单一,全部信息都来源于新闻报道,不能有效利用微博,论坛等其他资源;(3)不能自适应地发现文本中出现的新话题,现有的使用指定话题和聚类技术,发现并跟踪一系列文本中的话题,无法适用于突然出现的话题和发展演变出来的话题;(4)文本聚类方法是粗粒度处理方法,不能充分表示一个话题的重要元素,使得文本中有效信息的利用率不足,会使后期出现的话题出现类中心偏移。针对上述的问题,目前尚未提出有 ...
【技术保护点】
一种话题处理方法,其特征在于,包括:获取用于描述话题的新增文本;检测所述新增文本所描述的话题是否是已有话题;在检测结果为所述新增文本所描述的话题不是所述已有话题的情况下,确定所述新增文本所描述的话题为新增话题。
【技术特征摘要】
1.一种话题处理方法,其特征在于,包括:获取用于描述话题的新增文本;检测所述新增文本所描述的话题是否是已有话题;在检测结果为所述新增文本所描述的话题不是所述已有话题的情况下,确定所述新增文本所描述的话题为新增话题。2.根据权利要求1所述的方法,其特征在于,获取用于描述话题的新增文本包括:线上获取所述用于描述话题的新增文本。3.根据权利要求1或2所述的方法,其特征在于,获取用于描述话题的新增文本包括:从多种信源中获取所述用于描述话题的新增文本。4.根据权利要求1所述的方法,其特征在于,在确定所述新增文本所描述的话题为新增话题之后,所述方法还包括:将所述新增话题添加到所述已有话题中;或者先将所述用于描述话题的新增文本存储在新增话题文本队列中,在所述新增话题文本队列中的文本数量达到预设数值和/或程序执行时间达到预设时长后,再从所述新增话题文本队列中提取出相应的新增话题,并将提取出来的新增话题添加到所述已有话题中。5.根据权利要求4所述的方法,其特征在于,在从所述新增话题文本队列中提取出相应的新增话题之后,且将提取出来的新增话题添加到所述已有话题中之前,所述方法还包括:从提取出来的新增话题中过滤掉噪声话题。6.根据权利要求4或5所述的方法,其特征在于,在将所述新增话题添加到所述已有话题中之后,所述方法还包括:从添加了所述新增话题的已有话题中找出热门话题,其中,所述热门话题为在添加了所述新增话题的已有话题中排名达到指定阈值的话题;输出所述热门话题。7.根据权利要求1所述的方法,其特征在于,检测所述新增文本所描述的话题是否是已有话题包括:对所述新增文本进行向量化处理,得到所述新增文本的文本向量;创建所述已有话题的话题矩阵,其中,所述话题矩阵的每一列表示一个话题,每一行表示话题中的一个词语,每个元素表示当前词语在当前话题中所占权重的大小;根据所述已有话题的话题矩阵A构造所述新增文本的文本向量Y的函数关系式Y=AX;通过根据所述X的解确定所述新增文本所描述的话题与所述已有话题之间的隶属关系;根据所述隶属关系确定所述新增文本所描述的话题是否是所述已有话题。8.一种话题处理装置,其特征在于,包括:获取单元,用于获取用于描述话题的新增文...
【专利技术属性】
技术研发人员:祁国晟,徐文斌,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。