一种词汇聚类的方法及装置制造方法及图纸

技术编号:10531418 阅读:104 留言:0更新日期:2014-10-15 12:10
本申请提供了一种词汇聚类的方法及装置,以解决目前聚类结果不准确的问题。一种词汇聚类的方法包括:获取多个对象及该对象关联的词汇;以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类,得到各潜在主题类;其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象;通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂,得到各中间类;将关联内聚度大于阈值的任意两中间类进行合并,并根据合并后的中间类生成最终主题类。通过本申请得到的聚类结果更加准确,进而在利用聚类结果进行统计分析的各种应用中可以提高分析结果的准确度。

【技术实现步骤摘要】
【专利摘要】本申请提供了一种词汇聚类的方法及装置,以解决目前聚类结果不准确的问题。一种词汇聚类的方法包括:获取多个对象及该对象关联的词汇;以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类,得到各潜在主题类;其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象;通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂,得到各中间类;将关联内聚度大于阈值的任意两中间类进行合并,并根据合并后的中间类生成最终主题类。通过本申请得到的聚类结果更加准确,进而在利用聚类结果进行统计分析的各种应用中可以提高分析结果的准确度。【专利说明】一种词汇聚类的方法及装置
本申请涉及网络
,特别是涉及一种词汇聚类的方法及装置。
技术介绍
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由 聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他 簇中的对象相异。 很多实际应用中都会使用到聚类,例如,在广告应用中,大多数情况下,投放广告 的用户购买的是同一类或者相关联的关键词,而投放了广告的应用系统对这些广告进行统 计分析时,需要将购买了相关联的关键词的用户和相关联的关键词进行聚类,以形成独立 的主题类,以便对这些独立的主题类进行分析,分析这些独立主题类的流量和所消耗的数 据。 例如,用户A购买了空顶帽、女装帽、儿童草帽、流行帽和时装帽等各种帽子的关 键词,用户B购买了帽子、太阳帽、纯棉帽等帽子相关的关键词,则用户A和用户B应该聚为 一类M,用户A和用户B所购买的关键词也聚为相同的类M。 目前通常利用概率潜在语义分析模型(Probabilistic Latent Semantic Analysis,PLSA)进行主题聚类,PLSA是基于双模式和共现的数据分析方法延伸的统计学 方法,利用了强化的期望最大化算法来训练潜在类。 但是,单纯的PLSA聚类效果不是很理想,只能达到粗粒度的聚类效果。而且,在 PLSA聚类中需要预先指定主题数目,而这些预先指定的主题数目不能很好的表示实际的主 题数。因此,PLSA聚类存在聚类结果不准确,进而导致应用聚类结果进行统计分析造成分 析结果不准确的问题。
技术实现思路
本申请提供了一种词汇聚类的方法及装置,以解决目前聚类结果不准确的问题。 为了解决上述问题,本申请公开了一种词汇聚类的方法,包括: 获取多个对象及该对象关联的词汇; 以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类,得到各潜在主题 类;其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象; 通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂,得到各中 间类; 将关联内聚度大于阈值的任意两中间类进行合并,并根据合并后的中间类生成最 终主题类。 可选地,所述通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分 裂,包括: 步骤一,查找所述潜在主题类中关联对象最多的词汇,并将所述词汇加入到新建 的中间类中; 步骤二,查找与所述词汇的关联权重达到阈值的对象,并将所述对象加入到所述 中间类中; 步骤三,查找与所述对象的关联权重达到阈值的词汇,并将所述与所述对象的关 联权重达到阈值的词汇加入到所述中间类中; 重复步骤二和步骤三直至没有对象或词汇再加入到所述中间类中; 重复步骤一、步骤二和步骤三至所述潜在主题类的所有对象及对象关联的词汇分 别加入到新建的各中间类中。 可选地,所述阈值的确定方法包括: 计算所述中间类之间的关联内聚度; 依据所述关联内聚度计算中间类的平均内聚度,并将所述平均内聚度作为所述阈 值。 可选地,所述根据合并后的中间类生成最终主题类,包括: 为每一合并后的中间类建立与其 对应的最终主题类; 对应每个对象计算所述对象属于各合并后的中间类的概率,找出所述概率最大的 合并后的中间类,并将所述对象加入到所述概率最大的合并后的中间类对应的最终主题类 中; 对应每个词汇计算各合并后的中间类出现所述词汇的概率,找出所述概率最大的 合并后的中间类,并将所述词汇加入到所述概率最大的合并后的中间类对应的最终主题类 中。 可选地,所述根据合并后的中间类生成最终主题类,还包括: 对于分裂步骤中没有加入到任何中间类中的对象,查找所述各对象关联的词汇的 集合中与所述对象的关联权重最大的词汇,并将所述对象加入到所述词汇所属的最终主题 类中; 对于分裂步骤中没有加入到任何中间类中的词汇,查找所述各对象关联的词汇的 集合中与所述词汇的关联权重最大的对象,并将所述词汇加入到所述对象所属的最终主题 类中。 可选地,所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类之 前,还包括: 利用词汇的类目信息过滤各对象关联的词汇的集合; 从过滤后的集合中查找只有一个关联对象的词汇,并将所述词汇从过滤后的集合 中去除。 可选地,所述利用词汇的类目信息过滤各对象关联的词汇的集合,包括: 根据类目信息统计各对象关联的词汇的集合中每个词汇所属的类目个数; 将类目个数大于阈值的词汇作为宽泛词并从所述各对象关联的词汇的集合中去 除。 可选地,所述根据合并后的中间类生成最终主题类,包括: 对于所述只有一个关联对象的词汇,将所述词汇加入到该词汇的关联对象所属的 最终主题类中。 可选地,所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类,包 括: 步骤一,指定潜在主题个数; 步骤二,初始化各潜在主题下出现各词汇的概率和每一对象属于各潜在主题的概 率;步骤三,根据各潜在主题下出现各词汇的概率和对象属于各潜在主题的概率,在迭代模 型中计算对象关联的词汇属于各潜在主题的概率;步骤四,根据对象关联的词汇属于各潜 在主题的概率,重新计算在各潜在主题下出现所述各词汇的概率和对象属于各潜在主题的 概率;步骤五,判断重新计算的潜在主题下出现词汇的概率和对象属于各潜在主题的概率 的变化率是否小于阈值或达到最大迭代次数; 当所述变化率大于或等于阈值或未达到最大迭代次数时,重复步骤三、步骤四和 步骤五; 当所述变化率小于阈值或达到最大迭代次数时,执行步骤六; 步骤六,将每一词汇在各潜在主题下出现的概率和每一对象属于各潜在主题的概 率逆序排序,并输出所述逆序排序的结果。 本申请还公开了一种词汇聚类的装置,包括: 获取模块,用于获取多个对象及该对象关联的词汇; 聚类模块,用于以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类, 得到各潜在主题类;其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的 对象; 分裂模块,用于通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行 分裂,得到各中间类; 合并模块,用于将关联内聚度大于阈值的任意两中间类进行合并; 生成模块,用于根据合并后的中间类生成最终主题类。 可选地,所述分裂模块包括: 词汇查找子模块,用于查找所述潜在主题类中关联对象最多的词汇,并将所述词 汇加入到新建的中间类中; 对象查找子模块,用于本文档来自技高网
...
一种词汇聚类的方法及装置

【技术保护点】
一种词汇聚类的方法,其特征在于,包括:获取多个对象及该对象关联的词汇;以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类,得到各潜在主题类;其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象;通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂,得到各中间类;将关联内聚度大于阈值的任意两中间类进行合并,并根据合并后的中间类生成最终主题类。

【技术特征摘要】

【专利技术属性】
技术研发人员:周美玲黄云平
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1