使用分层聚类的罕见主题检测制造技术

技术编号:33266986 阅读:14 留言:0更新日期:2022-04-30 23:22
可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型,其中在播种完成时,所移除的域词被恢复。所移除的域词被恢复。所移除的域词被恢复。

【技术实现步骤摘要】
【国外来华专利技术】使用分层聚类的罕见主题检测


[0001]本专利技术总体上涉及计算系统,并且更具体地涉及用于使用利用计算处理器的分层聚类来提供罕见主题(rare topic)检测的不同实施例。

技术介绍

[0002]计算机和网络技术的出现使得生活质量的提升同时增强日常活动并简化信息共享成为可能。由于信息技术的最近发展和互联网的日益普及,现在大量信息以数字形式可用。这种信息的可用性提供了许多机会。近年来,诸如例如实时通信消息传送的数字信息和在线信息已经变得非常流行。随着技术的阔步前进取得成效,在这些系统中取得有利于效率和改进的进展的需要更大。

技术实现思路

[0003]提供了用于由处理器使用分层主题建模来提供罕见主题检测的各实施例。可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组(n

grams)、短语、文本片段(text snippet)或其组合来播种以演化分层主题模型,并且在播种完成时,所移除的域词被恢复。
附图说明
[0004]为了容易理解本专利技术的优点,上面简要描述的本专利技术的更具体描述将通过参考附图中示出的具体实施例来呈现。应理解,这些附图仅描绘了本专利技术的典型实施例,并且因此不被认为是对其范围的限制,将通过使用附图用附加特征和细节来描述和解释本专利技术,在附图中:
[0005]图1是示出根据本专利技术的实施例的示例性云计算节点的框图;
[0006]图2是描绘根据本专利技术实施例的示例性云计算环境的附加框图;
[0007]图3是描绘根据本专利技术实施例的抽象模型层的附加框图;
[0008]图4是描绘根据本专利技术各方面的分析实时会话数据和记录消息之间的到达间时间的附加图;
[0009]图5是描绘根据本专利技术各方面的使用分层主题建模的罕见主题检测的图;以及
[0010]图6是描绘用于通过处理器使用分层主题建模来提供罕见主题检测的示例性方法的流程图;再次,其中可以实现本专利技术的各方面。
具体实施方式
[0011]随着电子信息量的持续增加,对复杂的信息访问系统的需求也增长。数字或“在线”数据已经变得通过实时、全球计算机网络日益可访问。数据可反映不同组织和组或个体的许多方面,包括科学、政治、政府、教育、企业等。随着协作和社交通信的使用增加,经由基
于文本的通信的通信也将增加。出于商业和娱乐的目的,实时通信消息(例如,实时聊天会话)是现代社会的重要部分。然而,对于各个实体,不管大小如何,使用这样的协作和社交通信方式可能是压倒性的体验,特别是当大量基于文本的数据由各个应用和服务生成时。
[0012]此外,各种类型的实体(例如,企业、组织、政府机构、教育机构等)经常参与语料库语言学,其是对“实际使用”文本的语料库(即,集合)中所表达的语言的研究。语料库语言学的核心思想是,表达的分析最好在其自然使用内进行。通过收集书写样本,研究人员能够理解个人如何相互交谈。照此,本专利技术采用有助于理解和解释基于消息的数据的不同技术。
[0013]在一个方面,主题建模可以用于发现文本语料库内的语义结构。主题建模可采用一个或多个操作来推断基于文本的文档和/或会话中的主题和含义。主题建模和文本挖掘可以用于获得对不同通信的洞察。例如,如果企业可以挖掘关于特定产品或服务的客户反馈,则该信息可以证明是有价值的。当采用文本挖掘/主题建模技术时,推荐之一是可用于分析的数据越多,总体结果越好。然而,即使使用大数据,从业者可能需要文本挖掘单个对话或小文本语料库以推断含义。
[0014]另外,在通信(例如,一个或多个用户之间的可以是文本形式(例如,文档、电子邮件、演示文稿等)和/或音频/视频形式的对话)期间,有必要快速且自适应地理解通信/对话,同时提供与这样的通信/对话的主题有关的智能解释、概述和/或理解。
[0015]在一些情况下,例如,文档聚类是将类似的文档分组在一起,从而将它们分配给相同的隐式主题。文档聚类提供了提高信息检索的有效性的能力。最近已采用潜在语义分析操作和聚类分层聚类来基于相似性将对象分组成聚类。例如,潜在语义分析,其中给定n个句子,框架列出在那些句子中引用的概念。即,主题是“词袋”,其中每个文档具有多个主题(具有多项式分布)并且每个主题具有多个词(具有狄利克雷分布)。然而,潜在语义分析的挑战是主题中的通信/对话(例如,对话/口语英语)词不能满足狄利克雷生成过程并且不具有分层主题的概念(例如,数据是一类数据计划并且该数据计划是一类国际数据计划)。
[0016]在分层聚类操作中,文档被递归地从下到上合并,从而产生经递归分割的集群的决策树。用于找到相似性的距离测量从单链接变化到计算上更昂贵的链接,但它们与最近相邻距离紧密相关。分层聚类操作通过递归地合并单个最佳文档或集群对来工作,使得对于以数万计的文档集合编号的计算成本过高。即,文档被表示为其间具有距离(例如,欧几里德)的矢量。然而,当“主导(dominant)”词没有从较低层级的矢量中移除时(例如,数据在最高层级处主要并且发生30%的对话,“国际”仅在1%中发生),距离度量失败。由此,对于向主题提供通信/对话语料库的概述(与仅仅文档相比)仍然存在挑战。
[0017]因此,本文中示出了各种实施例,以通过处理器使用分层主题建模提供罕见主题检测。可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型,并且在播种完成时,所移除的域词被恢复。
[0018]在一个方面,本专利技术通过提供聚类到多个主题中的呼叫的概括版本(例如,客户

代理交互的语音

文本转录)来提供分层主题建模。即,分层主题建模在任何类型的文本文档上工作,并且长文本文档可被转换成概述,该概述通常是ngram的集合。
[0019]ngram词的概述可以用于生成词矢量,并且词矢量可以根据一个或多个分配的得
分被加权。可以在每次迭代中在将词矢量汇总成K个集群时采用K均值聚类操作,其中,“K”是正整数或定义的值。K个集群可以包括一个或多个“王集群”。在一个方面,王集群是来自总数K个集群的最大集群(例如,包含最多文档或数据源的集群)。王集群可以是多个集群内的最大集群。
[0020]对于作为王集群的每个集群,分层主题建模操作通过从先前运行/执行中移除一个或多个“相关”词来重复执行(其对于下一个分层主题建模不再有区别)。在这样做时,随着主导词被移除,通过渐进向下钻取操作(例如,从迭代地执行分层主题建模操作)识别一个或多个罕见主题。可以识别用于每个代表性集群的Ngram、片段和建议的主题名称。被移除/抑制的一个或多个词可以用于ngram/片段识别,以改进和提供一个或多个用户的增强的可读性/可解释性。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于通过处理器使用分层主题建模来提供罕见主题检测的方法,包括:从一个或多个数据源学习分层主题模型;使用所述分层主题模型来迭代地移除所选集群中的一个或多个主导词,其中所述主导词与所述集群的一个或多个主要主题相关;以及用一个或多个词、n元组、短语、文本片段或其组合来对所学习的分层主题模型播种以演化所述分层主题模型,其中在所述播种完成时,所移除的域词被恢复。2.根据权利要求1所述的方法,还包括:生成一个或多个词矢量,并且对所述一个或多个词矢量中的每个词矢量进行评分。3.根据权利要求1所述的方法,还包括:从所述一个或多个词矢量生成多个集群,其中,所选集群是从所述多个集群识别的并且是王集群,其中,所述王集群是所述多个集群中的最大集群。4.根据权利要求1所述的方法,还包括:在每次迭代时将所选集群分割成多个集群;在迭代地移除备选所选集群中的一个或多个主导词时,从所述多个集群中识别备选所选集群,其中所述备选所选集群是王集群并且所述王集群是所述多个集群中的最大集群。5.根据权利要求1所述的方法,还包括:利用现有主题模型对所述分层主题模型播种。6.根据权利要求1所述的方法,还包括:根据一个或多个集群模型对多个集群中的每一个播种。7.根据权利要求1所述的方法,还包括:在每次迭代时迭代地移除所选集群中的一个或多个主导词时,识别所述多个集群中的每个集群之间的一个或多个差异。8.一种用于在计算环境中使用分层主题建模来提供罕见主题检测的系统,包括:具有可执行指令的一个或多个计算机,所述可执行指令在被执行时使得所述系统:从一个或多个数据源学习分层主题模型;使用所述分层主题模型来迭代地移除所选集群中的一个或多个主导词,其中所述主导词与所述集群的一个或多个主要主题相关;以及用一个或多个词、n元组、短语、文本片段或其组合来对所学习的分层主题模型播种以演化所述分层主题模型,其中在所述播种完成时,所移除的域词被恢复。9.根据权利要求8所述的系统,其中,所述可执行指令在被执行时使所述系统生成一个或多个词矢量并且对所述一个或多个词矢量中的每个词矢量进行评分。10.根据权利要求8所述的系统,其中,所述可执行指令在被执行时使所述系统从所述一个或多个词矢量生成多个集群,其中,所选集群是从所述多个集群识别的并且是王集群,其中,所述王集群是所述多个集群中的最大集群。11.根据权利要求8所述的系统,其中,所述可执行指令在被执行时使所述系统:在每次迭代时将所选集群分...

【专利技术属性】
技术研发人员:R
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1