对消息进行聚类的方法和设备技术

技术编号:9034021 阅读:93 留言:0更新日期:2013-08-15 00:51
提供一种对消息进行聚类的方法和设备。对消息进行聚类的方法包括:对消息进行分词,并分别计算通过分词获得的词的词频作为其权重;生成与消息对应的特征向量,其中,特征向量的每个元素分别与词相对应,每个元素的值分别为相对应的词的权重;根据词被用户关注的程度和/或包含词的消息的数目与全部消息的数目之间的相对比例,调整作为特征向量中的元素的值的词的权重,使得程度和/或比例越高,则权重被调整得越高;计算权重被调整后的特征向量之间的相似度;以及根据相似度将全部消息聚类为分组。

【技术实现步骤摘要】

本申请总体上涉及消息处理的领域,尤其涉及对消息进行聚类的方法和设备
技术介绍
近来,出现了各种信息传递方式。例如,在企业内部,常见的信息传递方式例如有IP电话、电子邮件、即时消息、日历表、CRM等;在企业外部,常见的信息传递方式例如有微博、博客等。作为信息来源的这些信息传递方式产生了大量的消息。由于所产生的消息的量非常大,所以如果对大量的消息中的每条消息分别进行处理,则消息处理的效率相当低。而且,大量的消息会淹没重要的消息,使得难以从大量的消息中获取重要的消息。
技术实现思路
在下文中将给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。根据本专利技术的实施例,提供了一种对消息进行聚类的方法,包括:对消息进行分词,并分别计算通过分词获得的词的词频作为其权重;生成与消息对应的特征向量,其中,特征向量的每个元素分别与词相对应,每个元素的值分别为相对应的词的权重;根据词被用户关注的程度和/或包含词的消息的数目与全部消息的数目之间的相对比例,调整作为特征向量中的元素的值的词的权重,使得程度和/或比例越高,则权重被调整得越高;计算权重被调整后的特征向量之间的相 似度;以及根据相似度将全部消息聚类为分组。根据上述对消息进行聚类的方法,其中,词被用户关注的程度由词在关注标签向量中的权重来表示,其中,根据消息的重要度得分和/或用户处理消息的类型,更新词在关注标签向量中的权重,使得消息的重要度得分越高,则词在关注标签向量中的权重被更新得越高,与该类型相对应的系数被应用于更新词在关注标签向量中的权重。根据上述对消息进行聚类的方法,在对消息进行分词的步骤之前,还包括:收集来自不同来源的消息;以及分别采用与来源对应的转换方式,将来自不同来源的消息转换成统一的格式。根据上述对消息进行聚类的方法,还包括:计算分组中的每个消息的重要度得分和/或紧急度得分;根据分组中的每个消息的重要度得分和/或紧急度得分,获得分组的重要度得分和/或紧急度得分;以及根据分组的重要度得分和/或紧急度得分,对分组进行排序。根据上述对消息进行聚类的方法,还包括:根据分组的重要度得分和/或紧急度得分、以及环境因素,选择用于发送相应的分组中的消息的通知方式;按照预定义的模板,对相应的分组中的消息进行渲染以生成通知内容;以及通过所选择的通知方式将生成的通知内容发送给用户。根据本申请的另一实施例,提供了一种对消息进行聚类的设备,包括:分词单元,其被配置成对消息进行分词,并分别计算通过分词获得的词的词频作为其权重;向量生成单元,其被配置成生成与消息对应的特征向量,其中,特征向量的每个元素分别与词相对应,每个元素的值分别为相对应的词的权重;权重调整单元,其被配置成根据词被用户关注的程度和/或包含词的消息的数目与全部消息的数目之间的相对比例,调整作为特征向量中的元素的值的词的权重,使得程度和/或比例越高,则权重被调整得越高;相似度计算单元,其被配置成计算权重被调整后的特征向量之间的相似度;以及消息聚类单元,其被配置成根据相似度将全部消息聚类为分组。根据上述对消息进行聚类的设备,其中,词被用户关注的程度由词在关注标签向量中的权重来表示,其中,根据消息的重要度得分和/或根据用户处理消息的类型,更新词在关注标签向量中的权重,使得消息的重要度得分越高,则词在关注标签向量中的权重被更新得越高,与类型相对应的系数被应用于更新词在关注标签向量中的权重。根据上述对消息进行聚类的设备,还包括:消息收集单元,其被配置成收集来自不同来源的消息;以及格式转换单元,其被配置成分别采用与来源对应的转换方式,将来自不同来源的消息转换成统一的格式。根据上述对消息进行聚类的设备,还包括:消息得分计算单元,其被配置成计算分组中的每个消息的重要度得分和/或紧急度得分;分组得分计算单元,其被配置成根据分组中的每个消息的重要度得分和/或紧急度得分,获得分组的重要度得分和/或紧急度得分;以及分组排序单元,其被配置成根据分组的重要度得分和/或紧急度得分,对分组进行排序。根据上 述对消息进行聚类的设备,还包括:选择单元,其被配置成根据分组的重要度得分和/或紧急度得分、以及环境因素,选择用于发送相应的分组中的消息的通知方式;渲染单元,其被配置成按照预定义的模板,对相应的分组中的消息进行渲染以生成通知内容;以及发送单元,其被配置成通过所选择的通知方式将生成的通知内容发送给用户。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中:图1是示出根据本专利技术实施例的对消息进行聚类的处理的流程图;图2是示出根据本专利技术实施例的对消息分组进行排序的处理的流程图;图3是示出根据本专利技术实施例的将消息通知给用户的处理的流程图;图4是示出根据本专利技术实施例的对消息进行预处理的处理的流程图;图5是示出根据本专利技术实施例的对消息进行聚类的设备的框图;图6是示出根据本专利技术实施例的对消息分组进行排序的装置的框图;图7是示出根据本专利技术实施例的将消息通知给用户的装置的框图;图8是示出根据本专利技术实施例的对消息进行预处理的装置的框图9是示出消息的紧急度得分随时间的变化的示意图;以及图10是示出可用于作为实施根据本专利技术的实施例的信息处理设备的示意性框图。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构,而省略了与本专利技术关系不大的其他细节。虽然所产生的消息的量非常大,但是这些消息之间可能存在冗余。例如,通过不同信息传递方式传递的消息可能表示相同内容。例如,通过IP电话、电子邮件、或微博等传递的消息可能表示相同内容。本专利技术能够对这些通过不同信息传递方式传递的表示相同内容的消息进行聚类,因此能够减少需要处理的消息的数量,从而提高处理的效率。另外,不同的消息的重要度不同。本专利技术能够根据消息的重要度对消息进行排序,因此能够将重要度更高的消息优先传递给用户,从而可容易地从大量的消息中获得重要度更高的消息。另外,不同的信息传递方式在传递信息的及时性方面不同。例如,相比于电子邮件,短消息的及时性更高。本专利技术能够根据消息的重要度、紧急度等选择相应的信息传递方式,因此能够提高消息传递的及时性。下面将结合图1来 描述根据本专利技术实施例的对消息进行聚类的处理。图1是示出根据本专利技术实施例的对消息进行聚类的处理的流程图。如图1所示,该方法在步骤100开始。在步骤102,对消息进行分词,并分别计算通过分词获得本文档来自技高网...

【技术保护点】
一种对消息进行聚类的方法,包括:对所述消息进行分词,并分别计算通过分词获得的词的词频作为其权重;生成与所述消息对应的特征向量,其中,所述特征向量的每个元素分别与所述词相对应,每个元素的值分别为相对应的词的权重;根据所述词被用户关注的程度和/或包含所述词的消息的数目与全部消息的数目之间的相对比例,调整作为所述特征向量中的元素的值的所述词的权重,使得所述程度和/或比例越高,则所述权重被调整得越高;计算权重被调整后的特征向量之间的相似度;以及根据所述相似度将全部消息聚类为分组。

【技术特征摘要】

【专利技术属性】
技术研发人员:李邵明张军钟朝亮邹纲松尾昭彦
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1