当前位置: 首页 > 专利查询>微软公司专利>正文

无监督消息聚类制造技术

技术编号:7809422 阅读:183 留言:0更新日期:2012-09-27 08:20
无监督聚类可用于将微博或其他短长度消息组织到消息簇中。消息可与现有的簇进行比较以确定相似度得分。如果至少一个相似度得分大于阈值,则可以将消息添加到现有的消息簇。如果消息与现有的簇不相似,则可以将该消息与准则进行比较以开始一个新的消息簇。

【技术实现步骤摘要】
无监督消息聚类
本专利技术总体上涉及数据处理,更具体地,涉及消息聚类。
技术介绍
具有短的消息长度的消息已成为通信的重要形式。一些服务提供通常任何订阅的人都可以获得的短消息。这样可以允许对来自这些服务的短消息搜索相关的内容。可惜的是,部分由于消息的有限内容的原因,对短消息搜索造成困难。
技术实现思路
无监督的聚类(unsupervisedclustering)可以用于将微博或其他短长度的消息组织到消息簇中。消息可以与现有的簇进行比较以确定相似度得分。如果至少一个相似度得分超过阈值,则消息可以添加到现有的消息簇。如果消息与现有的簇不相似,则将该消息与准则作比较以开始新的消息簇。此
技术实现思路
以简要的形式提供了对选择的一些概念进行的介绍,它们在以下的具体实施例中被进一步描述。此
技术实现思路
不旨在标识所要保护主题的关键特征或必要特征,也不旨在孤立地辅助确定所要保护主题的范围。附图说明以下参考附图详细描述本专利技术,其中:图1示出根据本专利技术实施例的处理消息以添加到簇的示意流程图。图2-4示出根据本专利技术各种实施例的方法的示例。图5是适合于用来实现本专利技术实施例的示例性计算环境的框图。图6示意性地示出适合执行本专利技术实施例的网络环境。具体实施方式概述在各种实施例中,提供了用于对诸如包含少于固定数量字符的微博条目或消息的具有相对短的长度的消息进行聚类的系统和方法。该系统和方法能够允许基于相关性因子、品质因子和/或其他因子来过滤消息。经过滤的消息随后可以分配给适当的消息簇。如果不存在适当的消息簇,并且如果消息具有足够的品质(quality),则可以开始一个新的消息簇。消息簇随后可用来便利对消息的关键词搜索。可以在不必基于消息的长度计算规范化的相似度值的情况下来进行将消息分配到消息簇。用于发送有限长度消息的微博或其他类型的公开或半公开服务正变得日益普及。这些消息往往具有有限数目的字符,例如大约250个字符或更少、或者大约200个字符或更少、或大约160个字符或更少、或者大约140个字符或更少、或者大约100个字符或更少。消息中的部分字符可以用来提供经由网络可获得的到较长消息或其他文档的链接。由于消息短的性质,难于对单个消息进行排名以用于关键词搜索。短消息中低的总字符数目会导致消息中相应地低数目的单个词语单元或“标记”。在此说明书中,“标记(token)”指代根据用于解析消息的规则来一起考虑的一个或多个字符的字符串。例如,可以将对通过“空格”字符或标点字符分开的字符分组视为标记。另一类型的标记可以是用于连接到另一文档的字符。其他的标记还可以包括空格、标点、或其他非字母数字字符。取决于用来标识标记的定义,一些标记可以对应于多个词和/或部分词。而在其他实施例中,任意合适类型的定义都可以用来确定消息内的标记。由于消息中低的标记数目,消息分组是有用的。消息分组可以例如便于对消息组的特征而不是单个消息进行关键词搜索。使用有监督的机器学习算法对具有有限长度的消息进行排名可能会有一些已知的问题。收集时间敏感的文档的标签数据,例如在线社交微博数据,是有挑战性的并且代价昂贵。有监督的学习算法还可能要求使用新近的标签数据进行更新以反映用户行为随时间的任何变化。像聚类一样的无监督学习算法对具有难以预测的内容的文档的分组具有优势。可惜的是,传统的聚类算法可能需要大量的计算来测量文档之间的相似度。确定最佳数目的簇也消耗计算机资源。此外,常规的聚类算法通常不提供对获得的簇进行排名的机制。在各种实施例中,提供了无监督学习算法,其能够协助对包含低数目的字符和/或标记的文档进行聚类。无监督学习算法能够执行初始过滤来去除不期望的文档。消息由于存在与垃圾消息相关联的特征而被去除或排除,和/或消息由于具有低品质的得分而被去除或排除。随后为剩余的文档生成品质值,以确定给定的文档是否与现有的消息簇相关联,或者该文档是否能够用来形成新的消息簇。还可以基于簇的内容对消息簇进行排名。在一些实施例中,可以为每个消息簇确定标记的特征向量以协助识别另外的消息来添加到该簇。簇标记向量还可以用于确定簇与例如来自搜索查询的关键词之间的匹配。在此讨论中,“标记向量”是消息或簇中的标记的一种表示。标记向量可以认为是稀疏向量,其中可能的向量元素对应于可能包括在向量中的标记。对于包含小于固定数量的字符的单个消息来说,仅有有限数目的标记是可能的。因此,消息标记向量的大多数向量元素都为零值,以指示给定的标记在标记向量中不存在。消息标记向量仅对于在消息中存在的标记具有非零值。在此讨论中,可以将标记向量描述为具有与标记向量中的非零值数目相对应的长度。注意到,虽然标记向量在此描述为具有零值或非零值,但是任何其他合适的指定集合都可以用来指示标记存在与否。在各种实施例中,特征向量可以用来表示消息簇的内容。这可以称为簇标记向量。代替使用表示消息簇内所有消息中的所有标记的向量,簇标记向量可以包括仅针对代表数量的标记的非零值。可以根据总出现频率,或基于根据大的文档语料库中标记的出现频率而规范化的加权出现频率,来选择这些代表性的标记。在许多情况下,仅存储和/或使用标记向量的非零元素是合适的。诸如消息标记向量或簇标记向量的标记向量可以通过任意合适类型的数据格式来表示,该合适类型的数据格式指示存在于消息标记向量或簇标记向量中的标记。例如,存在于向量中的标记的标识符列表可以表示该向量。可选地,标记向量的表示还可以包括存在于向量中的标记的加权因子。该加权因子例如可以指示标记在文档语料库中出现的规范化的可能性。该加权因子还能够可选地指示标记在消息和/或簇中是否出现多次。用于为添加到簇中而评估消息的因子为了建立消息簇,潜在地可以使用很多因子来评估消息的品质。这些因子可以例如包括消息的总主题或消息中标记的数目。用于确定消息品质的因子可以称为品质特征。可选地,得分以品质特征值的形式与每个品质特征相关联。品质特征值的算数和/或几何和/或对数组合可以用来确定单个消息的品质值。作为对消息执行品质评估的预备步骤,可以对消息进行过滤以分离出任意不适合于进一步评估的消息。该预备过滤可以用来去除或排除各种消息类型。一个选择是去除源于已知为不期望的域和/或标识符的消息。这样的域和/或标识符可以是已知的垃圾源,或者是已知的色情或成人内容源。也会排除包括到这样的域的链接的消息。另一选择是滤除使用不期望的语言的消息。再一选择是滤除看起来意在针对单个接收者的消息。虽然消息以公开或半公开的方式来发布,但是消息中的一个或多个标记可以指示该消息实际上是意在针对单个接收者的。又一选择可以是使用以上特征的一个或多个,也可能与其他特征结合,来获得消息的垃圾得分(spamscore)。垃圾得分高于(或低于)阈值的消息会被滤除。对于剩下的消息,可以将垃圾得分作为一个品质特征值来保留以确定消息的整体品质值。通过过滤可以去除任意合适数目的消息。通过过滤去除的消息的数目可以是至少占所接收用于评估的消息的约5%、或者至少占约10%、或者至少占约25%、或者至少占约50%。通过过滤去除的消息数目可以为大约95%或更少、或大约75%或更少、或大约50%或更少、或大约25%或更少。可以考虑的另一个因子是消息内标记的数目。这个也称为消息的标记长度。虽然消息可以具有最大数目的字符,但是本文档来自技高网...
无监督消息聚类

【技术保护点】

【技术特征摘要】
2011.03.18 US 13/0512991.一种用于对消息进行聚类的方法,包括:接收多个消息,每个消息包含250个或更少字符;解析每个消息中的字符以形成包含根据消息解析规则来一起考虑的一个或多个字符的字符串,所述消息解析规则包括通过一字符来分开每个包含一个或多个字符的字符串,每个包含一起考虑的一个或多个字符的字符串包括一标记;形成所述多个消息的消息标记向量,消息标记向量具有对应于消息中的每个标记的元素;过滤所解析的消息来丢弃所述多个消息中的至少一个消息;相对于一个或多个消息簇为所过滤的多个消息计算相似度得分,消息簇具有对应于该消息簇中的代表数量的标记的簇标记向量,所述相似度得分基于所述消息标记向量和所述簇标记向量,无需相对于消息长度对消息标记向量进行规范化而计算相似度得分;根据至少一个消息的相似度得分大于相似度阈值将所述至少一个消息添加到消息簇;以及为包含所添加消息的所述消息簇更新所述簇标记向量。2.如权利要求1所述的方法,其中无需相对于消息的标记长度对消息标记向量进行规范化而计算所述相似度得分,所述标记长度对应于消息中的不同标记的数目。3.如权利要求1所述的方法,其中所述簇标记向量对应于小于标记阈值的多个标记。4.如权利要求1所述的方法,还包括:识别所过滤的多个消息中的消息,所识别的消息相对于一个或多个消息簇具有的相似度得分小于所述相似度阈值;以及根据所识别的消息满足用于形成新的消息簇的一个或多个准则,使用所识别的消息开始一个新的消息簇。5.如权利要求4所述的方法,其中用于形成新的消息簇的一个或多个准则包括在所述识别的消息中存在链接,以及在所识别的消息中存在至少5个标记。6.如权利要求1所述的方法,还包括从来自一个或多个消息簇的第二消息簇中去除消息,所述去除消息基于所去除的消息的品质值、所去除消息的年龄、或其组合。7.如权利要求1所述的方法,还包括从所述一个或多个消息簇中删除消息簇,所述删除消息簇基于所删除的消息簇的簇排名、所删除的消息簇的年龄、所删除的消息簇相对于先前尺寸的尺寸、或其组合。8.一种响应于搜索查询来识别消息簇的方法,包括:接收包含250个或更少字符...

【专利技术属性】
技术研发人员:KY金段镭S钟
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1