从文本文档中检测热点事件的方法和设备技术

技术编号:10106531 阅读:209 留言:0更新日期:2014-06-01 20:59
本发明专利技术的实施方式提供了一种从文本文档中检测热点事件的方法。该方法包括:A)对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)将所述热点词分组,将属于同一事件的热点词分到同一个组中。本发明专利技术的方法可以解决现有技术中因短文本文档的特征的数量有限而导致的热点事件的检测准确性不高的问题,以及,现有技术中无法根据文档簇直观、明了地确定热点事件的内容的问题。此外,本发明专利技术的另一方面提供了一种从文本文档中检测热点事件的设备,例如,服务器上安装的软件。

【技术实现步骤摘要】
从文本文档中检测热点事件的方法和设备
本专利技术的实施方式涉及信息
,更具体地,本专利技术的实施方式涉及从文本文档中检测热点事件的方法和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。在当今社会,每天都会有大大小小的事件发生。伴随着事件的发生,人们会在微博、论坛或微信等各种社交平台上围绕各类事件进行讨论,并最终形成大量的本文文档。另外,各门户网站所发布的新闻也会形成文本文档。目前,根据应用需要,迫切需要基于这些文本文档,发现哪些事件是具有较高的社会关注度的事件,即,发现哪些事件是热点事件。
技术实现思路
但是,本专利技术人在研究过程中发现,当从文本文档中检测热点事件时,现有技术的方法基本上都是先对文本文档进行预处理;然后提取文本文档的特征,形成文本文档的特征向量;再利用文本文档的特征向量对文本文档进行分组;最后根据各组中包含的文本文档的数量来确定该文档簇中包含的文本文档是否反映热点事件,即,如果数量大于或等于预设阈值,反映的就是热点事件,否则,反映的就不是热点事件。依照现有技术,在热点事件的检测过程中,需要提取文本文档的特征,形成文本文档的特征向量,再利用文本文档的特征向量对文本文档进行分组。目前在各类社交平台上存在的文本文档多为短篇幅的文本文档(这里,简称为短文本文档),由于篇幅的限制,短文本文档的特征不多,因此,从短文本文档中提取出的特征的区别能力就会不好(或者说,特征不够明显、不够突出),如果提取出的特征的区别能力不好,就会影响后续的分组结果的准确性,导致准确性降低,即,将本不应该归为一组的几个文本文档划分到一个组里,最终会导致检测热点事件的准确性不高。另外,依照现有技术,最终得到的结果是文本文档的集合。而该文本文档集合中包含的文本文档到底反映了哪一个热点事件,还需要在进一步阅读文本文档的情况下才能确定。对于用户而言,这种确定方式不够直观、明了。为此,非常需要一种从文本文档中检测热点事件的方法和设备,以解决现有技术中因短文本文档的特征的数量有限而导致的热点事件的检测准确性不高的问题。另外,还解决现有技术中在检测到热点事件后,无法根据文档簇直观、明了地确定热点事件的内容的问题。在本上下文中,本专利技术的实施方式期望提供一种从文本文档中检测热点事件的方法和设备。在本专利技术实施方式的第一方面中,提供了一种从文本文档中检测热点事件的方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。在本专利技术实施方式的第二方面中,提供了一种从文本文档中检测热点事件的设备,包括:分词单元,用于对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;筛选单元,用于从所述候选词中筛选出词频大于或等于预设的词频阈值,和/或,词频增长率大于或等于预设的增长率阈值的候选词作为热点词;划分单元,用于将所述热点词分组,将属于同一事件的热点词分到同一个组中。在本专利技术实施方式中,从文本文档中的热点词入手,即先从各个文本文档中提取出热点词,然后将相近似的热点词分到一组(各组包含的热点词即为属于一个热点事件的热点词)的话,就可以避免现有技术中当基于短文本文档检测热点事件时所产生的检测准确性不高的问题。另外,在本专利技术实施方式中,最终得到的结果是热点词的集合。对于用户而言,其只需要阅读几个热点词,即可确定这几个热点词反映了哪一个热点事件。这种确定方式更加直观、明了。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1示意性地示出了本专利技术实施方式可以在其中实施的一个示例性场景;图2示意性地示出了根据本专利技术的一个实施方式的从文本文档中检测热点事件的方法的流程图;图3示意性地示出了根据本专利技术的一个实施方式的将属于同一事件的热点词分到同一个组中的方法的流程图;图4示意性地示出了根据本专利技术的一个实施方式的对热点词进行聚类处理的方法的流程图;图5示意性地示出了根据本专利技术的一个实施方式的从文本文档中检测热点事件的设备的结构框架图;图6示意性地示出了根据本专利技术的一个实施方式的划分单元的结构框架图。在附图中,相同或对应的标号表示相同或对应的部分。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。本领域技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。根据本专利技术的实施方式,提出了一种从文本文档中检测热点事件的方法和设备。在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。下面参考本专利技术的若干代表性实施方式,详细阐释本专利技术的原理和精神。专利技术概述本专利技术人发现,在基于文本文档检测热点事件时,如果从文本文档入手,即先利用文本文档的特征将相近似的文本文档分到一组,然后根据各组中文本文档的个数确定该组包含的文本文档是否反映热点事件的话,对于短文本文档而言,由于篇幅的限制,导致其包含的特征并不多。换言之,短文本文档的特征并不明显和突出。短文本文档的这个缺陷会影响对短文本文档进行分组的准确性,最终影响检测的准确性。如果从文本文档中的热点词入手,即先从各个文本文档中提取出热点词,然后将相近似的热点词分到一组(各组包含的热点词即为属于一个热点事件的热点词)的话,就可以避免前面所述的当基于短文本文档检测热点事件时所产生的检测准确性不高的问题。在介绍了本专利技术的基本原理之后,下面具体介绍本专利技术的各种非限制性实施方式。应用场景总览首先参考图1,图1示意性地示出了本专利技术的实施方式可以在其中实施的示例性应用场景。其中,一旦在社交平台或门户网站上产生文本文档11,该文本文档11就会存储在社交平台或门户网站的服务器10中。在每一个采样周期(如,采样周期为一天)内,服务器20都会从服务器10中采集在该采样周期内所产生的文本文档110。服务器20从本文文档110中检测出最新的热点事件111(热点事件111为包含多个热点词的集合),然后可以将最新的热点事件111推送给客户端30。服务器20可以是Web服务器,也可以是其他类型的服务器,例如APP服务器。本领域技术人员可以理解,图1所示的示意图仅是本专利技术的实施方式可以在其中得以实现的一个示例。本专利技术实施方式的应用范围不受到该框架任何方面的限制。例如本文档来自技高网...
从文本文档中检测热点事件的方法和设备

【技术保护点】
一种方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。

【技术特征摘要】
1.一种从文本文档中检测热点事件的方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中;其中,所述步骤C)包括:C1)、构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;C2)、对所述热点词的词向量进行归一化处理;C3)、计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;C4)、计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;C5)、基于每两个热点词之间的距离,对所有热点词进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。2.根据权利要求1所述的方法,其中,在所述步骤B)中,所述候选词的词频增长率为所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率。3.根据权利要求2所述的方法,其中,按照如下公式计算所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率:IncrRate(i)为候选词i在当前采样周期的词频相对于候选词i在当前采样周期的前N个采样周期的平均词频的增长率,Occ(i)为候选词i在当前采样周期的词频,Avg(i)为候选词i在当前采样周期的前N个采样周期的平均词频。4.根据权利要求1所述的方法,其中,通过如下公式对所述热点词的词向量进行归一化处理:其中,归一化值(j)为所述热点词的词向量中第j个分量的归一化值,分量值(j)为所述热点词的词向量中第j个分量的值,MaxValue为在所有热点词的词向量的第j个分量中出现的最大值,MinValue为在所有热点词的词向量的第j个分量中出现的最小值。5.根据权利要求1所述的方法,其中,计算归一化处理后的每两个热点词的词向量之间的余弦相似度,作为每两个热点词之间的相似度。6.根据权利要求1所述的方法,其中,步骤C5)包括:C51)、将一个热点词初始化为一个簇,从而得到与热点词的数目相同的多个簇;C52)、将每两个热点词之间的距离作为每两个簇之间的距离;C53)、通过比较每两个簇之间的距离,确定最小簇间距离值;C54)、判断所述最小簇间距离值是否小于预设的距离阈值,如果所述最小簇间距离值小于预设的距离阈值,将导致所述最小簇间距离值的两个簇进行合并,在剩下的簇的数目多于一个的情况下,通过公式计算合并后的簇与其它簇中每一个簇之间的距离,并返回步骤C53),如果所述最小簇间距离值大于或等于预设的距离阈值,或者在最后只剩下一个簇的情况下,则将剩下的簇确定为最终结果;其中,簇I由簇K和L合并而成,DIJ为合并后的簇I与簇J之间的距离,DKJ为簇K与簇J之间的距离,DLJ为簇L与簇J之间的距离,nK为簇K中包含的热点词的个数,nL为簇L中包含的热点词的个数,nI为簇I中包含的热点词的个数。7.一种从文本文档中检测热点事件的设备,包括:分词单元,用于对在当前采样周期所采...

【专利技术属性】
技术研发人员:杨路军潘照明
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1