使用分层聚类的罕见主题检测制造技术

技术编号：33266986 阅读：14 留言：0更新日期：2022-04-30 23:22

可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型，其中在播种完成时，所移除的域词被恢复。所移除的域词被恢复。所移除的域词被恢复。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用分层聚类的罕见主题检测

[0001]本专利技术总体上涉及计算系统，并且更具体地涉及用于使用利用计算处理器的分层聚类来提供罕见主题(rare topic)检测的不同实施例。

技术介绍

[0002]计算机和网络技术的出现使得生活质量的提升同时增强日常活动并简化信息共享成为可能。由于信息技术的最近发展和互联网的日益普及，现在大量信息以数字形式可用。这种信息的可用性提供了许多机会。近年来，诸如例如实时通信消息传送的数字信息和在线信息已经变得非常流行。随着技术的阔步前进取得成效，在这些系统中取得有利于效率和改进的进展的需要更大。

技术实现思路

[0003]提供了用于由处理器使用分层主题建模来提供罕见主题检测的各实施例。可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组(n
‑
grams)、短语、文本片段(text snippet)或其组合来播种以演化分层主题模型，并且在播种完成时，所移除的域词被恢复。
附图说明
[0004]为了容易理解本专利技术的优点，上面简要描述的本专利技术的更具体描述将通过参考附图中示出的具体实施例来呈现。应理解，这些附图仅描绘了本专利技术的典型实施例，并且因此不被认为是对其范围的限制，将通过使用附图用附加特征和细节来描述和解释本专利技术，在附图中：
[0005]图1是示出根据本专利技术的实施例的示例性云计算节点...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于通过处理器使用分层主题建模来提供罕见主题检测的方法，包括：从一个或多个数据源学习分层主题模型；使用所述分层主题模型来迭代地移除所选集群中的一个或多个主导词，其中所述主导词与所述集群的一个或多个主要主题相关；以及用一个或多个词、n元组、短语、文本片段或其组合来对所学习的分层主题模型播种以演化所述分层主题模型，其中在所述播种完成时，所移除的域词被恢复。2.根据权利要求1所述的方法，还包括：生成一个或多个词矢量，并且对所述一个或多个词矢量中的每个词矢量进行评分。3.根据权利要求1所述的方法，还包括：从所述一个或多个词矢量生成多个集群，其中，所选集群是从所述多个集群识别的并且是王集群，其中，所述王集群是所述多个集群中的最大集群。4.根据权利要求1所述的方法，还包括：在每次迭代时将所选集群分割成多个集群；在迭代地移除备选所选集群中的一个或多个主导词时，从所述多个集群中识别备选所选集群，其中所述备选所选集群是王集群并且所述王集群是所述多个集群中的最大集群。5.根据权利要求1所述的方法，还包括：利用现有主题模型对所述分层主题模型播种。6.根据权利要求1所述的方法，还包括：根据一个或多个集群模型对多个集群中的每一个播种。7.根据权利要求1所述的方法，还包括：在每次迭代时迭代地移除所选集群中的一个或多个主导词时，识别所述多个集群中的每个集群之间的一个或多个差异。8.一种用于在计算环境中使用分层主题建模来提供罕见主题检测的系统，包括：具有可执行指令的一个或多个计算机，所述可执行指令在被执行时使得所述系统：从一个或多个数据源学习分层主题模型；使用所述分层主题模型来迭代地移除所选集群中的一个或多个主导词，其中所述主导词与所述集群的一个或多个主要主题相关；以及用一个或多个词、n元组、短语、文本片段或其组合来对所学习的分层主题模型播种以演化所述分层主题模型，其中在所述播种完成时，所移除的域词被恢复。9.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统生成一个或多个词矢量并且对所述一个或多个词矢量中的每个词矢量进行评分。10.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统从所述一个或多个词矢量生成多个集群，其中，所选集群是从所述多个集群识别的并且是王集群，其中，所述王集群是所述多个集群中的最大集群。11.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统：在每次迭代时将所选集群分...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人