【技术实现步骤摘要】
从文本文档中检测热点事件的方法和设备
本专利技术的实施方式涉及信息
,更具体地,本专利技术的实施方式涉及从文本文档中检测热点事件的方法和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。在当今社会,每天都会有大大小小的事件发生。伴随着事件的发生,人们会在微博、论坛或微信等各种社交平台上围绕各类事件进行讨论,并最终形成大量的本文文档。另外,各门户网站所发布的新闻也会形成文本文档。目前,根据应用需要,迫切需要基于这些文本文档,发现哪些事件是具有较高的社会关注度的事件,即,发现哪些事件是热点事件。
技术实现思路
但是,本专利技术人在研究过程中发现,当从文本文档中检测热点事件时,现有技术的方法基本上都是先对文本文档进行预处理;然后提取文本文档的特征,形成文本文档的特征向量;再利用文本文档的特征向量对文本文档进行分组;最后根据各组中包含的文本文档的数量来确定该文档簇中包含的文本文档是否反映热点事件,即,如果数量大于或等于预设阈值,反映的就是热点事件,否则,反映的就不是热点事件。依照现有技术,在热点事件的检测过程中,需要提取文本文档的特征,形成文本文档的特征向量,再利用文本文档的特征向量对文本文档进行分组。目前在各类社交平台上存在的文本文档多为短篇幅的文本文档(这里,简称为短文本文档),由于篇幅的限制,短文本文档的特征不多, ...
【技术保护点】
一种方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。
【技术特征摘要】
1.一种从文本文档中检测热点事件的方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中;其中,所述步骤C)包括:C1)、构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;C2)、对所述热点词的词向量进行归一化处理;C3)、计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;C4)、计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;C5)、基于每两个热点词之间的距离,对所有热点词进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。2.根据权利要求1所述的方法,其中,在所述步骤B)中,所述候选词的词频增长率为所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率。3.根据权利要求2所述的方法,其中,按照如下公式计算所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率:IncrRate(i)为候选词i在当前采样周期的词频相对于候选词i在当前采样周期的前N个采样周期的平均词频的增长率,Occ(i)为候选词i在当前采样周期的词频,Avg(i)为候选词i在当前采样周期的前N个采样周期的平均词频。4.根据权利要求1所述的方法,其中,通过如下公式对所述热点词的词向量进行归一化处理:其中,归一化值(j)为所述热点词的词向量中第j个分量的归一化值,分量值(j)为所述热点词的词向量中第j个分量的值,MaxValue为在所有热点词的词向量的第j个分量中出现的最大值,MinValue为在所有热点词的词向量的第j个分量中出现的最小值。5.根据权利要求1所述的方法,其中,计算归一化处理后的每两个热点词的词向量之间的余弦相似度,作为每两个热点词之间的相似度。6.根据权利要求1所述的方法,其中,步骤C5)包括:C51)、将一个热点词初始化为一个簇,从而得到与热点词的数目相同的多个簇;C52)、将每两个热点词之间的距离作为每两个簇之间的距离;C53)、通过比较每两个簇之间的距离,确定最小簇间距离值;C54)、判断所述最小簇间距离值是否小于预设的距离阈值,如果所述最小簇间距离值小于预设的距离阈值,将导致所述最小簇间距离值的两个簇进行合并,在剩下的簇的数目多于一个的情况下,通过公式计算合并后的簇与其它簇中每一个簇之间的距离,并返回步骤C53),如果所述最小簇间距离值大于或等于预设的距离阈值,或者在最后只剩下一个簇的情况下,则将剩下的簇确定为最终结果;其中,簇I由簇K和L合并而成,DIJ为合并后的簇I与簇J之间的距离,DKJ为簇K与簇J之间的距离,DLJ为簇L与簇J之间的距离,nK为簇K中包含的热点词的个数,nL为簇L中包含的热点词的个数,nI为簇I中包含的热点词的个数。7.一种从文本文档中检测热点事件的设备,包括:分词单元,用于对在当前采样周期所采...
【专利技术属性】
技术研发人员:杨路军,潘照明,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。