话题处理方法及装置制造方法及图纸

技术编号:15690885 阅读:102 留言:0更新日期:2017-06-24 03:38
本发明专利技术公开了一种话题处理方法及装置。其中,该方法包括:获取用于描述话题的新增文本;检测新增文本所描述的话题是否是已有话题;在检测结果为新增文本所描述的话题不是已有话题的情况下,确定新增文本所描述的话题为新增话题。本发明专利技术解决了相关技术中只能发现已有话题,无法发现新话题的技术问题。

Topic processing method and device

The invention discloses a topic processing method and a device thereof. Among them, the method includes obtaining a text description for new topic; detecting whether the new text description of the topic is the topic; in the test results described as the new text topic is not the case for the topic, to determine the new text description of the topic is a new topic. The invention solves the technical problems that the existing topic can not be found and the new topic can not be discovered in the relevant technology.

【技术实现步骤摘要】
话题处理方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种话题处理方法及装置。
技术介绍
话题检测与跟踪(TopicDetection&Tracing)技术是自然语言处理与信息检索领域实用性非常高的技术,也是在大数据背景下有效地发现和提取有用信息实用技术,意在发现和处理文本中出现的热门话题或事件。通常情况下,热门话题或报道的发现和跟踪技术是针对特定领域或者特定事件,发现并跟踪话题后续进展情况的一项技术。目前,国内外的热门话题检测技术主要侧重于从各类新闻报道中发现、过滤和跟踪话题,执行过程如下:1、文本获取,即上网收集各类媒体的新闻报道;2、文本向量化,即将收集到的原始文本进行向量化处理,形成向量化的文本;3、文本聚类,即将向量化的文本进行聚类分析,并将出现频率高的词语或者处在聚类中心上的文本作为一个话题;4、在特定的时间段内,重复上述1、2、3步的操作,并使用热度模型对第3步得到的话题进行排序,并输出前top-n个话题,该执行过程虽然能够实现话题发现和跟踪功能,但是存在如下缺陷:(1)线下处理,不能实时的发现与跟踪新话题,进而无法及时有效地了解新话题事件;(2)信源单一,全部信息都来源于新闻报道,不能有效利用微博,论坛等其他资源;(3)不能自适应地发现文本中出现的新话题,现有的使用指定话题和聚类技术,发现并跟踪一系列文本中的话题,无法适用于突然出现的话题和发展演变出来的话题;(4)文本聚类方法是粗粒度处理方法,不能充分表示一个话题的重要元素,使得文本中有效信息的利用率不足,会使后期出现的话题出现类中心偏移。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种话题处理方法及装置,以至少解决相关技术中只能发现已有话题,无法发现新话题的技术问题。根据本专利技术实施例的一个方面,提供了一种话题处理方法,包括:获取用于描述话题的新增文本;检测上述新增文本所描述的话题是否是已有话题;在检测结果为上述新增文本所描述的话题不是上述已有话题的情况下,确定上述新增文本所描述的话题为新增话题。进一步地,获取用于描述话题的新增文本包括:线上获取上述用于描述话题的新增文本。进一步地,获取用于描述话题的新增文本包括:从多种信源中获取上述用于描述话题的新增文本。进一步地,在确定上述新增文本所描述的话题为新增话题之后,上述方法还包括:将上述新增话题添加到上述已有话题中;或者先将上述用于描述话题的新增文本存储在新增话题文本队列中,在上述新增话题文本队列中的文本数量达到预设数值和/或程序执行时间达到预设时长后,再从上述新增话题文本队列中提取出相应的新增话题,并将提取出来的新增话题添加到上述已有话题中。进一步地,在从上述新增话题文本队列中提取出相应的新增话题之后,且将提取出来的新增话题添加到上述已有话题中之前,上述方法还包括:从提取出来的新增话题中过滤掉噪声话题。进一步地,在将上述新增话题添加到上述已有话题中之后,上述方法还包括:从添加了上述新增话题的已有话题中找出热门话题,其中,上述热门话题为在添加了上述新增话题的已有话题中排名达到指定阈值的话题;输出上述热门话题。进一步地,检测上述新增文本所描述的话题是否是已有话题包括:对上述新增文本进行向量化处理,得到上述新增文本的文本向量;创建上述已有话题的话题矩阵,其中,上述话题矩阵的每一列表示一个话题,每一行表示话题中的一个词语,每个元素表示当前词语在当前话题中所占权重的大小;根据上述已有话题的话题矩阵A构造上述新增文本的文本向量Y的函数关系式Y=AX;通过根据上述X的解确定上述新增文本所描述的话题与上述已有话题之间的隶属关系;根据上述隶属关系确定上述新增文本所描述的话题是否是上述已有话题。根据本专利技术实施例的另一方面,还提供了一种话题处理装置,包括:获取单元,用于获取用于描述话题的新增文本;检测单元,用于检测上述新增文本所描述的话题是否是已有话题;确定单元,用于在检测结果为上述新增文本所描述的话题不是上述已有话题的情况下,确定上述新增文本所描述的话题为新增话题。进一步地,上述获取单元还用于线上获取上述用于描述话题的新增文本。进一步地,上述获取单元还用于从多种信源中获取上述用于描述话题的新增文本。进一步地,上述装置还包括:第一添加单元,用于在确定上述新增文本所描述的话题为新增话题之后,将上述新增话题添加到上述已有话题中;或者第二添加单元,用于先将上述用于描述话题的新增文本存储在新增话题文本队列中,在上述新增话题文本队列中的文本数量达到预设数值和/或程序执行时间达到预设时长后,再从上述新增话题文本队列中提取出相应的新增话题,并将提取出来的新增话题添加到上述已有话题中。进一步地,上述装置还包括:过滤单元,用于在从上述新增话题文本队列中提取出相应的新增话题之后,且将提取出来的新增话题添加到上述已有话题中之前,从提取出来的新增话题中过滤掉噪声话题。进一步地,上述装置还包括:查找单元,用于在将上述新增话题添加到上述已有话题中之后,从添加了上述新增话题的已有话题中找出热门话题,其中,上述热门话题为在添加了上述新增话题的已有话题中排名达到指定阈值的话题;输出单元,用于输出上述热门话题。进一步地,上述检测单元包括:处理模块,用于对上述新增文本进行向量化处理,得到上述新增文本的文本向量;创建模块,用于创建上述已有话题的话题矩阵,其中,上述话题矩阵的每一列表示一个话题,每一行表示话题中的一个词语,每个元素表示当前词语在当前话题中所占权重的大小;构造模块,用于根据上述已有话题的话题矩阵A构造上述新增文本的文本向量Y的函数关系式Y=AX;第一确定模块,用于通过根据上述X的解确定上述新增文本所描述的话题与上述已有话题之间的隶属关系;第二确定模块,用于根据上述隶属关系确定上述新增文本所描述的话题是否是上述已有话题。在本专利技术实施例中,采用自适应的发现新话题的方式,通过获取用于描述话题的新增文本;检测所述新增文本所描述的话题是否是已有话题;在检测结果为所述新增文本所描述的话题不是所述已有话题的情况下,确定所述新增文本所描述的话题为新增话题,达到了发现新话题和追踪已有话题的目的,从而实现了提高话题发现的效率和准确率的技术效果,进而解决了相关技术中只能发现已有话题,无法发现新话题的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的话题处理方法的流程图;图2是根据本专利技术实施例的一种可选的在线自适应话题发现与跟踪模型的框架图;图3是根据本专利技术实施例的一种可选的话题处理装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或本文档来自技高网
...
话题处理方法及装置

【技术保护点】
一种话题处理方法,其特征在于,包括:获取用于描述话题的新增文本;检测所述新增文本所描述的话题是否是已有话题;在检测结果为所述新增文本所描述的话题不是所述已有话题的情况下,确定所述新增文本所描述的话题为新增话题。

【技术特征摘要】
1.一种话题处理方法,其特征在于,包括:获取用于描述话题的新增文本;检测所述新增文本所描述的话题是否是已有话题;在检测结果为所述新增文本所描述的话题不是所述已有话题的情况下,确定所述新增文本所描述的话题为新增话题。2.根据权利要求1所述的方法,其特征在于,获取用于描述话题的新增文本包括:线上获取所述用于描述话题的新增文本。3.根据权利要求1或2所述的方法,其特征在于,获取用于描述话题的新增文本包括:从多种信源中获取所述用于描述话题的新增文本。4.根据权利要求1所述的方法,其特征在于,在确定所述新增文本所描述的话题为新增话题之后,所述方法还包括:将所述新增话题添加到所述已有话题中;或者先将所述用于描述话题的新增文本存储在新增话题文本队列中,在所述新增话题文本队列中的文本数量达到预设数值和/或程序执行时间达到预设时长后,再从所述新增话题文本队列中提取出相应的新增话题,并将提取出来的新增话题添加到所述已有话题中。5.根据权利要求4所述的方法,其特征在于,在从所述新增话题文本队列中提取出相应的新增话题之后,且将提取出来的新增话题添加到所述已有话题中之前,所述方法还包括:从提取出来的新增话题中过滤掉噪声话题。6.根据权利要求4或5所述的方法,其特征在于,在将所述新增话题添加到所述已有话题中之后,所述方法还包括:从添加了所述新增话题的已有话题中找出热门话题,其中,所述热门话题为在添加了所述新增话题的已有话题中排名达到指定阈值的话题;输出所述热门话题。7.根据权利要求1所述的方法,其特征在于,检测所述新增文本所描述的话题是否是已有话题包括:对所述新增文本进行向量化处理,得到所述新增文本的文本向量;创建所述已有话题的话题矩阵,其中,所述话题矩阵的每一列表示一个话题,每一行表示话题中的一个词语,每个元素表示当前词语在当前话题中所占权重的大小;根据所述已有话题的话题矩阵A构造所述新增文本的文本向量Y的函数关系式Y=AX;通过根据所述X的解确定所述新增文本所描述的话题与所述已有话题之间的隶属关系;根据所述隶属关系确定所述新增文本所描述的话题是否是所述已有话题。8.一种话题处理装置,其特征在于,包括:获取单元,用于获取用于描述话题的新增文...

【专利技术属性】
技术研发人员:祁国晟徐文斌
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1